CN113568727A - 一种基于深度强化学习的移动边缘计算任务分配方法 - Google Patents

一种基于深度强化学习的移动边缘计算任务分配方法 Download PDF

Info

Publication number
CN113568727A
CN113568727A CN202110835323.2A CN202110835323A CN113568727A CN 113568727 A CN113568727 A CN 113568727A CN 202110835323 A CN202110835323 A CN 202110835323A CN 113568727 A CN113568727 A CN 113568727A
Authority
CN
China
Prior art keywords
task
computing
terminal device
strategy
edge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110835323.2A
Other languages
English (en)
Other versions
CN113568727B (zh
Inventor
赵楠
季英强
白茂森
曾春艳
刘聪
胡胜
王娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University of Technology
Original Assignee
Hubei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University of Technology filed Critical Hubei University of Technology
Priority to CN202110835323.2A priority Critical patent/CN113568727B/zh
Priority claimed from CN202110835323.2A external-priority patent/CN113568727B/zh
Publication of CN113568727A publication Critical patent/CN113568727A/zh
Application granted granted Critical
Publication of CN113568727B publication Critical patent/CN113568727B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供了一种基于深度强化学习的移动边缘计算任务分配方法,旨在将深度强化学习策略引入到移动边缘计算任务分配,以期实现移动边缘计算任务的智能分配。首先,考虑到用户设备的计算能力和能量容量有限,本专利提出多边缘云协作移动边缘计算系统模型。其次,通过联合设计多边缘云的计算任务分配和计算资源管理,建立延迟和能量消耗的总和最小化的任务分配优化问题模型。再次,为了解决上述非凸优化任务分配问题,将移动边缘计算任务分配问题建模为马尔可夫决策过程。最后,针对上述马尔可夫决策过程中高维连续动作空间特点,提出双延迟深度确定性策略梯度算法,以获得多边缘云的计算任务分配和计算资源管理的近似最优联合策略。

Description

一种基于深度强化学习的移动边缘计算任务分配方法
技术领域
本发明涉及无线通信技术领域,尤其涉及一种基于深度强化学习的移动边缘计算任务分配方法。
背景技术
随着移动应用的迅速发展,越来越多的移动应用任务日趋计算密集和延迟敏感性。然而,这些任务可能对计算和电池能力有限的用户设备带来巨大挑战。为了应对这些挑战,移动边缘计算已被视为云计算的扩展,用于移动网络中的数据计算和通信。移动边缘计算将服务器放置在移动网络边缘,并提供计算和存储资源。服务器将更方便地提供计算服务来处理用户设备的密集计算任务,从而降低服务时延和更好的服务质量。
然而,现有移动边缘计算系统考虑单个边缘云的任务分配场景。由于有限的计算和能量容量,单一边缘云可能提供非常有限的任务分配性能,多边缘云协同研究的场景会更合适。同时,几乎所有现有的研究都集中在具有固定用户设备的静态边缘计算系统上。实际上,用户设备在计算过程中总是四处走动,这使得很难获得最佳策略,由此可知,现有技术中的方法存在较难适应环境动态性的技术问题。
发明内容
本发明提出一种基于深度强化学习的移动边缘计算任务分配方法,用于解决或者至少部分解决现有技术中的方法存在的较难适应环境动态性的技术问题。
为了解决上述技术问题,本发明提供了一种基于深度强化学习的移动边缘计算任务分配方法,包括:
S1:建立多边缘云协作移动边缘计算任务分配优化问题模型,其中,优化问题模型包括约束条件和目标,约束条件包括:每个参与终端设备计算的边缘云的计算任务比例在[0,1]之间,所有参与终端设备计算的边缘云的计算任务比例之和为1,为每个处理终端设备任务的边缘云所分配的计算资源在[0,F]之间;为所有处理终端设备任务的边缘云所分配的计算资源总和为F;目标为以延迟和能量消耗的总和最小化;
S2:将移动边缘计算任务分配问题建模为马尔可夫决策过程;
S3:将深度强化学习策略引入到移动边缘计算任务分配,通过观察当前时刻各终端设备计算任务完成情况,从历史经验中学习,选择下一时刻的最佳任务分配策略,以实现移动边缘计算任务的智能分配。
在一种实施方式中,步骤S1包括:
定义t时刻,第m个终端设备和控制中心之间的数据速率Rm(t):
Figure BDA0003176700790000021
其中,移动边缘计算系统由M个终端设备、K个边缘云和1个控制中心组成,上行带宽Bu平均分配给每个终端设备,Pm是终端设备m的发射功率,hm(t)为第m个终端设备和控制中心之间的信道增益,
Figure BDA0003176700790000022
为边缘云端的噪声水平;
定义t时刻,第m个终端设备和控制中心之间的任务传输能耗Em(t):
Figure BDA0003176700790000023
其中,Tm(t)为第m个终端设备和控制中心之间的任务传输延迟,
Figure BDA0003176700790000024
Dm为任务数据大小,Rm(t)为任务数据的传输数据速率,Pr是控制中心的接收功率;
定义t时刻,第k个边缘云处理第m个终端设备任务的计算延迟
Figure BDA0003176700790000025
Figure BDA0003176700790000026
其中,
Figure BDA0003176700790000027
为第k个边缘云参与第m个终端设备的计算任务比例,
Figure BDA0003176700790000028
为第k个边缘云处理第m个终端设备任务所分配的计算资源,Cm为第m个终端设备处理1bit任务所需的CPU周期数;
根据第m个终端设备和控制中心之间的任务传输延迟、第k个边缘云处理第m个终端设备任务所分配的计算资源,获得第k个边缘云处理第m个终端设备任务的能耗
Figure BDA0003176700790000031
Figure BDA0003176700790000032
其中,κ≥0为有效的开关电容;
获取系统总能耗E(t)以及系统总时延T(t),
Figure BDA0003176700790000033
Figure BDA0003176700790000034
根据系统总能耗和系统总时延获得系统完成计算任务所消耗的总成本为U(t)=w1E(t)+w2T(t),其中,w1和w2分别是能耗和时延的权重,且w1+w2=1;
通过联合计算任务
Figure BDA0003176700790000035
和计算资源
Figure BDA0003176700790000036
分配,构建多边缘云协作移动边缘计算任务分配优化问题模型,移动边缘计算任务分配优化问题模型的目标为最小化系统总成本,即:
Figure BDA0003176700790000037
Figure BDA0003176700790000038
Figure BDA0003176700790000039
Figure BDA00031767007900000310
Figure BDA00031767007900000311
其中,F为每个边缘云最大的计算资源。
在一种实施方式中,步骤S2包括:
移动边缘计算任务分配问题转化为一个马尔可夫决策过程(S;A;p(s′|s,a);r;π(a|s)),具体如下:
状态空间S:当前时刻各终端设备任务数据大小Dm的集合;
动作空间A:计算任务
Figure BDA00031767007900000312
和计算资源
Figure BDA00031767007900000313
策略的集合;
转移概率p(s′|s,a):在任务状态s情况下,采用某一动作a时,状态s转变为下一状态s′的概率;
奖励r:控制中心采用某一动作a时,任务状态从s转移到下一任务状态s′获得的成本;
策略π(a|s):在任务状态s时,选择某一任务分配动作a的概率;
其中,定义累积奖励R为所有奖励r的累积,即:
Figure BDA0003176700790000041
rn表示在第n个时刻获得的奖励,γ为衰减因子且γ∈[0,1),衰减因子决定了未来奖励和当前时刻奖励的重要性。
在一种实施方式中,步骤S3中定义状态s处选择任务分配策略a得到的期望奖励为状态-动作值函数Q(s,a)=E[R|s,a],其中,E[·]为数学期望运算。
在一种实施方式中,步骤S3中通过设计双延迟深度确定性策略梯度算法,以获得多边缘云的计算任务分配和计算资源管理的近似最优联合策略,双延迟深度确定性策略梯度算法由一个权重为μ的actor网络和两个权重为θ1和θ2的critic网络组成,actor网络和critic网络都包括各自的Online网络和Target网络,采用双延迟深度确定性策略梯度算法对模型进行训练,具体包括如下步骤:
(1)初始化当前时刻中各终端设备的任务状态s;
(2)利用ε-贪婪策略来选择计算任务和计算资源策略:以概率ε随机选择下一时刻计算任务和计算资源策略,以概率(1-ε)选择满足最优Q(s,a,θ)的策略;
(3)在状态s下,选择计算任务和计算资源策略a,得到奖励r;
(4)状态s转移到下一状态s′;
(5)将上述信息<s,a,r,s′>保存在经验回放存储器D中;
(6)从经验回放存储器D中随机抽取mini-batch样本<s,a,r,s′>;
(7)计算损失函数,借助梯度下降法获得最小损失函数,以更新Online actor网络权重μ和两个Online critic网络权重θ1和θ2
(8)间隔一定回合后,将Online actor网络权重μ和两个Online critic网络权重θ1和θ2分别复制给相应的Target actor网络μ′和两个Target critic网络权重θ1′和θ2′
(9)复第2到第8步骤,得到训练好的模型,其中,训练好的模型用于得到计算任务分配和计算资源管理的近似最优联合策略。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明提供的一种基于深度强化学习的移动边缘计算任务分配方法,首先,考虑到用户设备的计算能力和能量容量有限,构建了多边缘云协作移动边缘计算任务分配优化问题模型,即通过联合设计多边缘云的计算任务分配和计算资源管理,建立延迟和能量消耗的总和最小化的任务分配优化问题模型,并且为了解决上述非凸优化任务分配问题,将移动边缘计算任务分配问题建模为马尔可夫决策过程,最后,将深度强化学习策略引入到移动边缘计算任务分配,通过观察当前时刻各终端设备计算任务完成情况,从历史经验中学习,选择下一时刻的最佳任务分配策略,以实现移动边缘计算任务的智能分配,改善了分配效果,解决了现有技术中的方法存在的较难适应环境动态性的技术问题。
进一步地,针对马尔可夫决策过程中高维连续动作空间特点,提出双延迟深度确定性策略梯度算法,以获得多边缘云的计算任务分配和计算资源管理的近似最优联合策略。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施中提供的一种基于深度强化学习的移动边缘计算任务分配方法的流程图。
具体实施方式
本申请发明人通过大量的研究与实践发现:几乎所有现有的研究都集中在具有固定用户设备的静态边缘计算系统上。然而实际上,用户设备在计算过程中总是四处走动,这使得很难获得最佳策略。基于此,有必要共同考虑计算任务分配和计算资源管理等问题,以获得最小的执行延迟和能耗。但是,由于非凸性质和非平稳环境,如果没有关于环境的准确和完整信息,可能很难获得全局最优策略。因此,如何实现移动边缘计算任务的智能分配是一个值得研究的问题。近年来,深度强化学习方法因其强大的学习能力,在智能决策、无人驾驶等领域取得了一些研究进展。
因此,受到深度强化学习的启发,本专利旨在将深度强化学习策略引入到移动边缘计算任务分配,以期实现移动边缘计算任务的智能分配。通过联合设计多边缘云的计算任务分配和计算资源管理,建立延迟和能量消耗的总和最小化的任务分配优化问题模型。在此基础上,将移动边缘计算任务分配问题建模为马尔可夫决策过程,考虑到高维连续动作空间特点,提出多智能体深度强化学习框架,通过设计双延迟深度确定性策略梯度算法,以获得多边缘云的计算任务分配和计算资源管理的近似最优联合策略。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例提供了一种基于深度强化学习的移动边缘计算任务分配方法,包括:
S1:建立多边缘云协作移动边缘计算任务分配优化问题模型,其中,优化问题模型包括约束条件和目标,约束条件包括:每个参与终端设备计算的边缘云的计算任务比例在[0,1]之间,所有参与终端设备计算的边缘云的计算任务比例之和为1,为每个处理终端设备任务的边缘云所分配的计算资源在[0,F]之间;为所有处理终端设备任务的边缘云所分配的计算资源总和为F;目标为以延迟和能量消耗的总和最小化;
S2:将移动边缘计算任务分配问题建模为马尔可夫决策过程;
S3:将深度强化学习策略引入到移动边缘计算任务分配,通过观察当前时刻各终端设备计算任务完成情况,从历史经验中学习,选择下一时刻的最佳任务分配策略,以实现移动边缘计算任务的智能分配。
本发明的主要构思如下:
本发明针对现有移动边缘计算任务分配策略较难适应环境动态性问题,提出基于深度强化学习的移动边缘计算任务分配方法。通过联合设计多边缘云的计算任务分配和计算资源管理,建立延迟和能量消耗的总和最小化的任务分配优化问题模型。在此基础上,将移动边缘计算任务分配问题建模为马尔可夫决策过程,考虑到高维连续动作空间特点,提出多智能体深度强化学习框架,通过设计双延迟深度确定性策略梯度算法,以获得多边缘云的计算任务分配和计算资源管理的近似最优联合策略。
具体来说,步骤S3中设计基于深度强化学习的移动边缘计算任务分配算法,以获得多边缘云的计算任务分配和计算资源管理的近似最优联合策略。请参见图1,为本发明提出的基于深度强化学习的移动边缘计算任务分配方法的流程图。
在一种实施方式中,步骤S1包括:
定义t时刻,第m个终端设备和控制中心之间的数据速率Rm(t):
Figure BDA0003176700790000071
其中,移动边缘计算系统由M个终端设备、K个边缘云和1个控制中心组成,上行带宽Bu平均分配给每个终端设备,Pm是终端设备m的发射功率,hm(t)为第m个终端设备和控制中心之间的信道增益,
Figure BDA0003176700790000072
为边缘云端的噪声水平;
定义t时刻,第m个终端设备和控制中心之间的任务传输能耗Em(t):
Figure BDA0003176700790000073
其中,Tm(t)为第m个终端设备和控制中心之间的任务传输延迟,
Figure BDA0003176700790000074
Dm为任务数据大小,Rm(t)为任务数据的传输数据速率,Pr是控制中心的接收功率;
定义t时刻,第k个边缘云处理第m个终端设备任务的计算延迟
Figure BDA0003176700790000081
Figure BDA0003176700790000082
其中,
Figure BDA0003176700790000083
为第k个边缘云参与第m个终端设备的计算任务比例,
Figure BDA0003176700790000084
为第k个边缘云处理第m个终端设备任务所分配的计算资源,Cm为第m个终端设备处理1bit任务所需的CPU周期数;
根据第m个终端设备和控制中心之间的任务传输延迟、第k个边缘云处理第m个终端设备任务所分配的计算资源,获得第k个边缘云处理第m个终端设备任务的能耗
Figure BDA0003176700790000085
Figure BDA0003176700790000086
其中,κ≥0为有效的开关电容;
获取系统总能耗E(t)以及系统总时延T(t),
Figure BDA0003176700790000087
Figure BDA0003176700790000088
根据系统总能耗和系统总时延获得系统完成计算任务所消耗的总成本为U(t)=w1E(t)+w2T(t),其中,w1和w2分别是能耗和时延的权重,且w1+w2=1;
通过联合计算任务
Figure BDA0003176700790000089
和计算资源
Figure BDA00031767007900000810
分配,构建多边缘云协作移动边缘计算任务分配优化问题模型,移动边缘计算任务分配优化问题模型的目标为最小化系统总成本,即:
Figure BDA00031767007900000811
Figure BDA00031767007900000812
Figure BDA00031767007900000813
Figure BDA00031767007900000814
Figure BDA00031767007900000815
其中,F为每个边缘云最大的计算资源。
具体来说,因为终端设备将所有任务上报给控制中心,因此可以得到第m个终端设备和控制中心之间的任务传输延迟Tm(t)。
在接收到来自终端设备的全部输入数据后,控制中心决定边缘云的任务分配比例和计算资源分配测量。从而得到
Figure BDA0003176700790000091
为第k个边缘云参与第m个终端设备的计算任务比例,当
Figure BDA0003176700790000092
第k个边缘云不参与第m个终端设备的计算任务。
当所有终端设备的计算任务都完成时,可以得到系统总能耗E(t)。
最后通过联合计算任务
Figure BDA0003176700790000093
和计算资源
Figure BDA0003176700790000094
分配,系统任务卸载优化问题(移动边缘计算任务分配问题)可以设计为最小化系统总成本。
在一种实施方式中,步骤S2包括:
移动边缘计算任务分配问题转化为一个马尔可夫决策过程(S;A;p(s′|s,a);r;π(a|s)),具体如下:
状态空间S:当前时刻各终端设备任务数据大小Dm的集合;
动作空间A:计算任务
Figure BDA0003176700790000095
和计算资源
Figure BDA0003176700790000096
策略的集合;
转移概率p(s′|s,a):在任务状态s情况下,采用某一动作a时,状态s转变为下一状态s′的概率;
奖励r:控制中心采用某一动作a时,任务状态从s转移到下一任务状态s′获得的成本;
策略π(a|s):在任务状态s时,选择某一任务分配动作a的概率;
其中,定义累积奖励R为所有奖励r的累积,即:
Figure BDA0003176700790000097
rn表示在第n个时刻获得的奖励,γ为衰减因子且γ∈[0,1),衰减因子决定了未来奖励和当前时刻奖励的重要性。
考虑到当前时刻移动边缘计算任务分配策略所消耗的总成本仅与当前系统状态有关,与之前系统状态无关,因而,可以将移动边缘计算任务分配问题可描述为一个马尔可夫决策过程。当衰减因子接近0时,意味着当前时刻获得的奖励权重较多;反之,当衰减因子接近1时,则意味着控制中心更注重未来时刻获得的奖励。
在一种实施方式中,步骤S3中定义状态s处选择任务分配策略a得到的期望奖励为状态-动作值函数Q(s,a)=E[R|s,a],其中,E[·]为数学期望运算。
具体来说,本发明将深度强化学习策略引入到移动边缘计算任务分配,通过观察当前时刻各终端设备计算任务完成情况,从历史经验中学习,选择下一时刻的最佳任务分配策略,以实现移动边缘计算任务的智能分配。
在一种实施方式中,步骤S3中通过设计双延迟深度确定性策略梯度算法,以获得多边缘云的计算任务分配和计算资源管理的近似最优联合策略,双延迟深度确定性策略梯度算法由一个权重为μ的actor网络和两个权重为θ1和θ2的critic网络组成,actor网络和critic网络都包括各自的Online网络和Target网络,算法具体包括如下步骤:
(1)初始化当前时刻中各终端设备的任务状态s;
(2)利用ε-贪婪策略来选择计算任务和计算资源策略:以概率ε随机选择下一时刻计算任务和计算资源策略,以概率(1-ε)选择满足最优Q(s,a,θ)的策略;
(3)在状态s下,选择计算任务和计算资源策略a,得到奖励r;
(4)状态s转移到下一状态s′;
(5)将上述信息<s,a,r,s′>保存在经验回放存储器D中;
(6)从经验回放存储器D中随机抽取mini-batch样本<s,a,r,s′>;
(7)计算损失函数,借助梯度下降法获得最小损失函数,以更新Online actor网络权重μ和两个Online critic网络权重θ1和θ2
(8)间隔一定回合后,将Online actor网络权重μ和两个Online critic网络权重θ1和θ2分别复制给相应的Target actor网络μ′和两个Target critic网络权重θ1′和θ2′
(9)复第2到第8步骤,得到训练好的模型,其中,训练好的模型用于得到计算任务分配和计算资源管理的近似最优联合策略。
本申请发明人通过大量的研究与实践发现,当终端设备数量M较大时,整个状态空间S非常巨大。同时,考虑到上述马尔可夫决策过程中高维连续动作空间特点,本发明提出基于深度强化学习的移动边缘计算任务分配方法,通过设计双延迟深度确定性策略梯度算法,以获得多边缘云的计算任务分配和计算资源管理的近似最优联合策略。
双延迟深度确定性策略梯度算法由一个权重为μ的actor网络和两个权重为θ1和θ2的critic网络组成。采用两个critic网络,能够有效地解决单critic框架中Q值的高估问题。同时,为了提高学习稳定性,上述三个网络均由Online网络和Target网络组成(即actor网络包括Online actor网络和Targetactor网络,critic网络包括Online critic网络和Target critic网络)。
为了稳定训练过程并提高样本效率,控制中心在经验回放池中存储当前经验(当前状态s(t)、下一状态s′(t)、动作a(t)、奖励R(t))。在随机采样Mb个小batch后,通过将sj送入Online actor网络中生成策略πμ(sj),并利用策略梯度策略更新Online actor网络的权重,即
Figure BDA0003176700790000111
其中,
Figure BDA0003176700790000112
为梯度运算,J(μ)为actor网络的损失函数,
Figure BDA0003176700790000113
是状态sj、动作a为πμ(sj)时的状态-动作值函数。
此外,为了防止在Q值的窄峰上过拟合,将随机噪声添加到Target actor网络中,可以实现更平滑的状态-动作值估计。加噪目标动作为
Figure BDA0003176700790000114
其中,
Figure BDA0003176700790000115
是均值0和标准差
Figure BDA0003176700790000116
的噪声并被剪裁。则可以得到目标值yj
Figure BDA0003176700790000117
然后,基于策略πμ(sj),两个Online critic网络将同时获得两个Q值
Figure BDA0003176700790000121
Figure BDA0003176700790000122
通过最小化损失函数L(θi),定义为
Figure BDA0003176700790000123
其中,rj为奖励,δ为学习率,
Figure BDA0003176700790000124
为状态s′j、动作
Figure BDA0003176700790000125
时的状态-动作值函数,
Figure BDA0003176700790000126
为状态sj、动作aj时的状态-动作值函数。
于是,上述Online评估网络的权重可更新为
Figure BDA0003176700790000127
Figure BDA0003176700790000128
其中,λ表示学习率,
Figure BDA0003176700790000129
Figure BDA00031767007900001210
分别为actor网络和两个critic网络的梯度运算,J(μ)和L(θi)分别为actor网络和两个critic网络的损失函数。
同时,为了减少时间差异学习导致的错误,Online actor网络的权重的频率低于Online critic网络的频率。在本实施方式中,选择每d个时间步更新Online actor网络。于是,为了稳定训练过程,通过复制相应Online网络的权重,每隔d时间步更新三个Target网络的权重,即
μ′=τμ+(1-τ)μ′1,
θi′=τθi+(1-τ)θi′ 1,i=1,2,
其中,τ表示更新率,等式右边μ′1为更新前Target actor网络权重,等式左边μ′为更新后Target actor网络权重,等式右边θi′ 1为更新前Target critic网络权重,等式左边θi′为更新后Target critic网络权重。
(7)中的损失函数为L(θi),通过对基于深度强化学习的移动边缘计算任务分配算法的训练,可以得到训练好的模型,在模型(算法)测试过程中,在获取当前状态s时,利用上述已训练好的模型,即可得到相应的计算任务分配和计算资源管理的近似最优联合策略。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (5)

1.一种基于深度强化学习的移动边缘计算任务分配方法,其特征在于,包括:
S1:建立多边缘云协作移动边缘计算任务分配优化问题模型,其中,优化问题模型包括约束条件和目标,约束条件包括:每个参与终端设备计算的边缘云的计算任务比例在[0,1]之间,所有参与终端设备计算的边缘云的计算任务比例之和为1,为每个处理终端设备任务的边缘云所分配的计算资源在[0,F]之间;为所有处理终端设备任务的边缘云所分配的计算资源总和为F;目标为以延迟和能量消耗的总和最小化;
S2:将移动边缘计算任务分配问题建模为马尔可夫决策过程;
S3:将深度强化学习策略引入到移动边缘计算任务分配,通过观察当前时刻各终端设备计算任务完成情况,从历史经验中学习,选择下一时刻的最佳任务分配策略,以实现移动边缘计算任务的智能分配。
2.如权利要求1所述的移动边缘计算任务分配方法,其特征在于,步骤S1包括:
定义t时刻,第m个终端设备和控制中心之间的数据速率Rm(t):
Figure FDA0003176700780000011
其中,移动边缘计算系统由M个终端设备、K个边缘云和1个控制中心组成,上行带宽Bu平均分配给每个终端设备,Pm是终端设备m的发射功率,hm(t)为第m个终端设备和控制中心之间的信道增益,
Figure FDA0003176700780000013
为边缘云端的噪声水平;
定义t时刻,第m个终端设备和控制中心之间的任务传输能耗Em(t):
Figure FDA0003176700780000012
其中,Tm(t)为第m个终端设备和控制中心之间的任务传输延迟,
Figure FDA0003176700780000021
Dm为任务数据大小,Rm(t)为任务数据的传输数据速率,Pr是控制中心的接收功率;
定义t时刻,第k个边缘云处理第m个终端设备任务的计算延迟
Figure FDA0003176700780000022
Figure FDA0003176700780000023
其中,
Figure FDA0003176700780000024
为第k个边缘云参与第m个终端设备的计算任务比例,
Figure FDA0003176700780000025
为第k个边缘云处理第m个终端设备任务所分配的计算资源,Cm为第m个终端设备处理1bit任务所需的CPU周期数;
根据第m个终端设备和控制中心之间的任务传输延迟、第k个边缘云处理第m个终端设备任务所分配的计算资源,获得第k个边缘云处理第m个终端设备任务的能耗
Figure FDA00031767007800000211
Figure FDA0003176700780000026
其中,κ≥0为有效的开关电容;
获取系统总能耗E(t)以及系统总时延T(t),
Figure FDA0003176700780000027
Figure FDA0003176700780000028
根据系统总能耗和系统总时延获得系统完成计算任务所消耗的总成本为U(t)=w1E(t)+w2T(t),其中,w1和w2分别是能耗和时延的权重,且w1+w2=1;
通过联合计算任务
Figure FDA0003176700780000029
和计算资源
Figure FDA00031767007800000210
分配,构建多边缘云协作移动边缘计算任务分配优化问题模型,移动边缘计算任务分配优化问题模型的目标为最小化系统总成本,即:
Figure FDA0003176700780000031
s.t.
Figure FDA0003176700780000032
Figure FDA0003176700780000033
Figure FDA0003176700780000034
Figure FDA0003176700780000035
其中,F为每个边缘云最大的计算资源。
3.如权利要求1所述的移动边缘计算任务分配方法,其特征在于,步骤S2包括:
移动边缘计算任务分配问题转化为一个马尔可夫决策过程(S;A;p(s′|s,a);r;π(a|s)),具体如下:
状态空间S:当前时刻各终端设备任务数据大小Dm的集合;
动作空间A:计算任务
Figure FDA0003176700780000036
和计算资源
Figure FDA0003176700780000037
策略的集合;
转移概率p(s′|s,a):在任务状态s情况下,采用某一动作a时,状态s转变为下一状态s′的概率;
奖励r:控制中心采用某一动作a时,任务状态从s转移到下一任务状态s′获得的成本;
策略π(a|s):在任务状态s时,选择某一任务分配动作a的概率;
其中,定义累积奖励R为所有奖励r的累积,即:
Figure FDA0003176700780000038
rn表示在第n个时刻获得的奖励,γ为衰减因子且γ∈[0,1),衰减因子决定了未来奖励和当前时刻奖励的重要性。
4.如权利要求3所述的移动边缘计算任务分配方法,其特征在于,步骤S3中定义状态s处选择任务分配策略a得到的期望奖励为状态-动作值函数Q(s,a)=E[R|s,a],其中,E[·]为数学期望运算。
5.如权利要4所述的声纹识别方法,其特征在于,步骤S3中通过设计双延迟深度确定性策略梯度算法,以获得多边缘云的计算任务分配和计算资源管理的近似最优联合策略,双延迟深度确定性策略梯度算法由一个权重为μ的actor网络和两个权重为θ1和θ2的critic网络组成,actor网络和critic网络都包括各自的Online网络和Target网络,采用双延迟深度确定性策略梯度算法对模型进行训练,具体包括如下步骤:
(1)初始化当前时刻中各终端设备的任务状态s;
(2)利用ε-贪婪策略来选择计算任务和计算资源策略:以概率ε随机选择下一时刻计算任务和计算资源策略,以概率(1-ε)选择满足最优Q(s,a,θ)的策略;
(3)在状态s下,选择计算任务和计算资源策略a,得到奖励r;
(4)状态s转移到下一状态s′;
(5)将上述信息<s,a,r,s′>保存在经验回放存储器D中;
(6)从经验回放存储器D中随机抽取mini-batch样本<s,a,r,s′>;
(7)计算损失函数,借助梯度下降法获得最小损失函数,以更新Online actor网络权重μ和两个Online critic网络权重θ1和θ2
(8)间隔一定回合后,将Online actor网络权重μ和两个Online critic网络权重θ1和θ2分别复制给相应的Target actor网络μ′和两个Target critic网络权重θ1′和θ2′
(9)复第2到第8步骤,得到训练好的模型,其中,训练好的模型用于得到计算任务分配和计算资源管理的近似最优联合策略。
CN202110835323.2A 2021-07-23 一种基于深度强化学习的移动边缘计算任务分配方法 Active CN113568727B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110835323.2A CN113568727B (zh) 2021-07-23 一种基于深度强化学习的移动边缘计算任务分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110835323.2A CN113568727B (zh) 2021-07-23 一种基于深度强化学习的移动边缘计算任务分配方法

Publications (2)

Publication Number Publication Date
CN113568727A true CN113568727A (zh) 2021-10-29
CN113568727B CN113568727B (zh) 2024-05-10

Family

ID=

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114025359A (zh) * 2021-11-01 2022-02-08 湖南大学 基于深度强化学习的资源分配与计算卸载方法、系统、设备及介质
CN114066232A (zh) * 2021-11-15 2022-02-18 内蒙古北方重工业集团有限公司 基于分布式强化学习和边缘计算的工厂调度方法及系统
CN114189877A (zh) * 2021-12-06 2022-03-15 天津大学 一种面向5g基站的复合式能耗优化控制方法
CN114500551A (zh) * 2021-12-31 2022-05-13 杭州未名信科科技有限公司 边缘计算传输负载均衡方法、装置、设备及存储介质
CN114745383A (zh) * 2022-04-08 2022-07-12 浙江金乙昌科技股份有限公司 一种移动边缘计算辅助多层联邦学习方法
CN115022319A (zh) * 2022-05-31 2022-09-06 浙江理工大学 一种基于drl的边缘视频目标检测任务卸载方法及系统
CN115334076A (zh) * 2022-07-08 2022-11-11 电子科技大学 一种边缘服务器的服务迁移方法、系统及边缘服务器设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111405569A (zh) * 2020-03-19 2020-07-10 三峡大学 基于深度强化学习的计算卸载和资源分配方法及装置
US20200320397A1 (en) * 2019-04-04 2020-10-08 Cisco Technology, Inc. Learning-based service migration in mobile edge computing
CN111885137A (zh) * 2020-07-15 2020-11-03 国网河南省电力公司信息通信公司 一种基于深度强化学习的边缘容器资源分配方法
CN112134916A (zh) * 2020-07-21 2020-12-25 南京邮电大学 一种基于深度强化学习的云边协同计算迁移方法
CN112235835A (zh) * 2020-09-09 2021-01-15 广州大学 一种时变移动边缘计算网络的动态卸载方法
CN113064671A (zh) * 2021-04-27 2021-07-02 清华大学 基于多智能体的边缘云可扩展任务卸载方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200320397A1 (en) * 2019-04-04 2020-10-08 Cisco Technology, Inc. Learning-based service migration in mobile edge computing
CN111405569A (zh) * 2020-03-19 2020-07-10 三峡大学 基于深度强化学习的计算卸载和资源分配方法及装置
CN111885137A (zh) * 2020-07-15 2020-11-03 国网河南省电力公司信息通信公司 一种基于深度强化学习的边缘容器资源分配方法
CN112134916A (zh) * 2020-07-21 2020-12-25 南京邮电大学 一种基于深度强化学习的云边协同计算迁移方法
CN112235835A (zh) * 2020-09-09 2021-01-15 广州大学 一种时变移动边缘计算网络的动态卸载方法
CN113064671A (zh) * 2021-04-27 2021-07-02 清华大学 基于多智能体的边缘云可扩展任务卸载方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FANG FU, ZHICAI ZHANG, FEI RICHARD YU, QIAO YAN: "An actor-critic reinforcement learning-based resource management in mobile edge computing systems", INTERNATIONAL JOURNAL OF MACHINE LEARNING AND CYBERNETICS, vol. 11, 10 February 2020 (2020-02-10), pages 1875 - 1889, XP037191390, DOI: 10.1007/s13042-020-01077-8 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114025359A (zh) * 2021-11-01 2022-02-08 湖南大学 基于深度强化学习的资源分配与计算卸载方法、系统、设备及介质
CN114025359B (zh) * 2021-11-01 2024-04-23 湖南大学 基于深度强化学习的资源分配与计算卸载方法、系统、设备及介质
CN114066232A (zh) * 2021-11-15 2022-02-18 内蒙古北方重工业集团有限公司 基于分布式强化学习和边缘计算的工厂调度方法及系统
CN114189877A (zh) * 2021-12-06 2022-03-15 天津大学 一种面向5g基站的复合式能耗优化控制方法
CN114189877B (zh) * 2021-12-06 2023-09-15 天津大学 一种面向5g基站的复合式能耗优化控制方法
CN114500551A (zh) * 2021-12-31 2022-05-13 杭州未名信科科技有限公司 边缘计算传输负载均衡方法、装置、设备及存储介质
CN114500551B (zh) * 2021-12-31 2024-04-05 杭州未名信科科技有限公司 边缘计算传输负载均衡方法、装置、设备及存储介质
CN114745383A (zh) * 2022-04-08 2022-07-12 浙江金乙昌科技股份有限公司 一种移动边缘计算辅助多层联邦学习方法
CN115022319A (zh) * 2022-05-31 2022-09-06 浙江理工大学 一种基于drl的边缘视频目标检测任务卸载方法及系统
CN115334076A (zh) * 2022-07-08 2022-11-11 电子科技大学 一种边缘服务器的服务迁移方法、系统及边缘服务器设备

Similar Documents

Publication Publication Date Title
CN113950066B (zh) 移动边缘环境下单服务器部分计算卸载方法、系统、设备
CN112882815B (zh) 基于深度强化学习的多用户边缘计算优化调度方法
CN112181666A (zh) 一种基于边缘智能的设备评估和联邦学习重要性聚合方法、系统、设备和可读存储介质
CN112422644B (zh) 计算任务卸载方法及系统、电子设备和存储介质
CN114340016B (zh) 一种电网边缘计算卸载分配方法及系统
CN113141317B (zh) 流媒体服务器负载均衡方法、系统、计算机设备、终端
US20230153124A1 (en) Edge network computing system with deep reinforcement learning based task scheduling
CN112579194B (zh) 基于时延和事务吞吐量的区块链共识任务卸载方法及装置
CN113469325A (zh) 一种边缘聚合间隔自适应控制的分层联邦学习方法、计算机设备、存储介质
CN114124955B (zh) 一种基于多智能体博弈的计算卸载方法
Yan et al. Optimal model placement and online model splitting for device-edge co-inference
CN113760511B (zh) 一种基于深度确定性策略的车辆边缘计算任务卸载方法
CN112988285B (zh) 任务卸载方法和装置、电子设备及存储介质
CN114281718A (zh) 一种工业互联网边缘服务缓存决策方法及系统
CN116700931A (zh) 多目标边缘任务调度方法、装置、设备、介质及产品
CN115913712A (zh) 基于多用户多接入点的任务卸载隐私保护系统及方法
CN117436485A (zh) 基于权衡时延和精度的多退出点的端-边-云协同系统及方法
CN111488208B (zh) 基于可变步长蝙蝠算法的边云协同计算节点调度优化方法
CN114938381B (zh) 一种基于深度强化学习的d2d-mec卸载方法
CN113568727A (zh) 一种基于深度强化学习的移动边缘计算任务分配方法
CN113568727B (zh) 一种基于深度强化学习的移动边缘计算任务分配方法
CN115220818A (zh) 基于深度强化学习的实时依赖型任务卸载方法
CN116069498A (zh) 一种分布式算力调度方法、装置、电子设备及存储介质
CN115129447A (zh) 一种工业互联网中计及条件风险价值的边缘计算任务卸载方法及计算机设备
CN114968402A (zh) 边缘计算任务处理方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant