CN113568727B - 一种基于深度强化学习的移动边缘计算任务分配方法 - Google Patents
一种基于深度强化学习的移动边缘计算任务分配方法 Download PDFInfo
- Publication number
- CN113568727B CN113568727B CN202110835323.2A CN202110835323A CN113568727B CN 113568727 B CN113568727 B CN 113568727B CN 202110835323 A CN202110835323 A CN 202110835323A CN 113568727 B CN113568727 B CN 113568727B
- Authority
- CN
- China
- Prior art keywords
- task
- computing
- strategy
- mobile edge
- task allocation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000002787 reinforcement Effects 0.000 title claims abstract description 26
- 238000005265 energy consumption Methods 0.000 claims abstract description 24
- 230000009471 action Effects 0.000 claims abstract description 22
- 230000008569 process Effects 0.000 claims abstract description 22
- 238000005457 optimization Methods 0.000 claims abstract description 20
- 238000004364 calculation method Methods 0.000 claims description 40
- 230000006870 function Effects 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 15
- 230000005540 biological transmission Effects 0.000 claims description 10
- 230000007704 transition Effects 0.000 claims description 6
- 238000009825 accumulation Methods 0.000 claims description 3
- 239000003990 capacitor Substances 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000007726 management method Methods 0.000 description 14
- 238000011160 research Methods 0.000 description 6
- 230000007613 environmental effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5072—Grid computing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明提供了一种基于深度强化学习的移动边缘计算任务分配方法,旨在将深度强化学习策略引入到移动边缘计算任务分配,以期实现移动边缘计算任务的智能分配。首先,考虑到用户设备的计算能力和能量容量有限,本专利提出多边缘云协作移动边缘计算系统模型。其次,通过联合设计多边缘云的计算任务分配和计算资源管理,建立延迟和能量消耗的总和最小化的任务分配优化问题模型。再次,为了解决上述非凸优化任务分配问题,将移动边缘计算任务分配问题建模为马尔可夫决策过程。最后,针对上述马尔可夫决策过程中高维连续动作空间特点,提出双延迟深度确定性策略梯度算法,以获得多边缘云的计算任务分配和计算资源管理的近似最优联合策略。
Description
技术领域
本发明涉及无线通信技术领域,尤其涉及一种基于深度强化学习的移动边缘计算任务分配方法。
背景技术
随着移动应用的迅速发展,越来越多的移动应用任务日趋计算密集和延迟敏感性。然而,这些任务可能对计算和电池能力有限的用户设备带来巨大挑战。为了应对这些挑战,移动边缘计算已被视为云计算的扩展,用于移动网络中的数据计算和通信。移动边缘计算将服务器放置在移动网络边缘,并提供计算和存储资源。服务器将更方便地提供计算服务来处理用户设备的密集计算任务,从而降低服务时延和更好的服务质量。
然而,现有移动边缘计算系统考虑单个边缘云的任务分配场景。由于有限的计算和能量容量,单一边缘云可能提供非常有限的任务分配性能,多边缘云协同研究的场景会更合适。同时,几乎所有现有的研究都集中在具有固定用户设备的静态边缘计算系统上。实际上,用户设备在计算过程中总是四处走动,这使得很难获得最佳策略,由此可知,现有技术中的方法存在较难适应环境动态性的技术问题。
发明内容
本发明提出一种基于深度强化学习的移动边缘计算任务分配方法,用于解决或者至少部分解决现有技术中的方法存在的较难适应环境动态性的技术问题。
为了解决上述技术问题,本发明提供了一种基于深度强化学习的移动边缘计算任务分配方法,包括:
S1:建立多边缘云协作移动边缘计算任务分配优化问题模型,其中,优化问题模型包括约束条件和目标,约束条件包括:每个参与终端设备计算的边缘云的计算任务比例在[0,1]之间,所有参与终端设备计算的边缘云的计算任务比例之和为1,为每个处理终端设备任务的边缘云所分配的计算资源在[0,F]之间;为所有处理终端设备任务的边缘云所分配的计算资源总和为F;目标为以延迟和能量消耗的总和最小化;
S2:将移动边缘计算任务分配问题建模为马尔可夫决策过程;
S3:将深度强化学习策略引入到移动边缘计算任务分配,通过观察当前时刻各终端设备计算任务完成情况,从历史经验中学习,选择下一时刻的最佳任务分配策略,以实现移动边缘计算任务的智能分配。
在一种实施方式中,步骤S1包括:
定义t时刻,第m个终端设备和控制中心之间的数据速率Rm(t):
其中,移动边缘计算系统由M个终端设备、K个边缘云和1个控制中心组成,上行带宽Bu平均分配给每个终端设备,Pm是终端设备m的发射功率,hm(t)为第m个终端设备和控制中心之间的信道增益,为边缘云端的噪声水平;
定义t时刻,第m个终端设备和控制中心之间的任务传输能耗Em(t):
其中,Tm(t)为第m个终端设备和控制中心之间的任务传输延迟,Dm为任务数据大小,Rm(t)为任务数据的传输数据速率,Pr是控制中心的接收功率;
定义t时刻,第k个边缘云处理第m个终端设备任务的计算延迟
其中,为第k个边缘云参与第m个终端设备的计算任务比例,/>为第k个边缘云处理第m个终端设备任务所分配的计算资源,Cm为第m个终端设备处理1bit任务所需的CPU周期数;
根据第m个终端设备和控制中心之间的任务传输延迟、第k个边缘云处理第m个终端设备任务所分配的计算资源,获得第k个边缘云处理第m个终端设备任务的能耗
其中,κ≥0为有效的开关电容;
获取系统总能耗E(t)以及系统总时延T(t), 根据系统总能耗和系统总时延获得系统完成计算任务所消耗的总成本为U(t)=w1E(t)+w2T(t),其中,w1和w2分别是能耗和时延的权重,且w1+w2=1;
通过联合计算任务和计算资源/>分配,构建多边缘云协作移动边缘计算任务分配优化问题模型,移动边缘计算任务分配优化问题模型的目标为最小化系统总成本,即:
其中,F为每个边缘云最大的计算资源。
在一种实施方式中,步骤S2包括:
移动边缘计算任务分配问题转化为一个马尔可夫决策过程(S;A;p(s′|s,a);r;π(a|s)),具体如下:
状态空间S:当前时刻各终端设备任务数据大小Dm的集合;
动作空间A:计算任务和计算资源/>策略的集合;
转移概率p(s′|s,a):在任务状态s情况下,采用某一动作a时,状态s转变为下一状态s′的概率;
奖励r:控制中心采用某一动作a时,任务状态从s转移到下一任务状态s′获得的成本;
策略π(a|s):在任务状态s时,选择某一任务分配动作a的概率;
其中,定义累积奖励R为所有奖励r的累积,即:
rn表示在第n个时刻获得的奖励,γ为衰减因子且γ∈[0,1),衰减因子决定了未来奖励和当前时刻奖励的重要性。
在一种实施方式中,步骤S3中定义状态s处选择任务分配策略a得到的期望奖励为状态-动作值函数Q(s,a)=E[R|s,a],其中,E[·]为数学期望运算。
在一种实施方式中,步骤S3中通过设计双延迟深度确定性策略梯度算法,以获得多边缘云的计算任务分配和计算资源管理的近似最优联合策略,双延迟深度确定性策略梯度算法由一个权重为μ的actor网络和两个权重为θ1和θ2的critic网络组成,actor网络和critic网络都包括各自的Online网络和Target网络,采用双延迟深度确定性策略梯度算法对模型进行训练,具体包括如下步骤:
(1)初始化当前时刻中各终端设备的任务状态s;
(2)利用ε-贪婪策略来选择计算任务和计算资源策略:以概率ε随机选择下一时刻计算任务和计算资源策略,以概率(1-ε)选择满足最优Q(s,a,θ)的策略;
(3)在状态s下,选择计算任务和计算资源策略a,得到奖励r;
(4)状态s转移到下一状态s′;
(5)将上述信息<s,a,r,s′>保存在经验回放存储器D中;
(6)从经验回放存储器D中随机抽取mini-batch样本<s,a,r,s′>;
(7)计算损失函数,借助梯度下降法获得最小损失函数,以更新Online actor网络权重μ和两个Online critic网络权重θ1和θ2;
(8)间隔一定回合后,将Online actor网络权重μ和两个Online critic网络权重θ1和θ2分别复制给相应的Target actor网络μ′和两个Target critic网络权重θ1′和θ2′;
(9)复第2到第8步骤,得到训练好的模型,其中,训练好的模型用于得到计算任务分配和计算资源管理的近似最优联合策略。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明提供的一种基于深度强化学习的移动边缘计算任务分配方法,首先,考虑到用户设备的计算能力和能量容量有限,构建了多边缘云协作移动边缘计算任务分配优化问题模型,即通过联合设计多边缘云的计算任务分配和计算资源管理,建立延迟和能量消耗的总和最小化的任务分配优化问题模型,并且为了解决上述非凸优化任务分配问题,将移动边缘计算任务分配问题建模为马尔可夫决策过程,最后,将深度强化学习策略引入到移动边缘计算任务分配,通过观察当前时刻各终端设备计算任务完成情况,从历史经验中学习,选择下一时刻的最佳任务分配策略,以实现移动边缘计算任务的智能分配,改善了分配效果,解决了现有技术中的方法存在的较难适应环境动态性的技术问题。
进一步地,针对马尔可夫决策过程中高维连续动作空间特点,提出双延迟深度确定性策略梯度算法,以获得多边缘云的计算任务分配和计算资源管理的近似最优联合策略。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施中提供的一种基于深度强化学习的移动边缘计算任务分配方法的流程图。
具体实施方式
本申请发明人通过大量的研究与实践发现:几乎所有现有的研究都集中在具有固定用户设备的静态边缘计算系统上。然而实际上,用户设备在计算过程中总是四处走动,这使得很难获得最佳策略。基于此,有必要共同考虑计算任务分配和计算资源管理等问题,以获得最小的执行延迟和能耗。但是,由于非凸性质和非平稳环境,如果没有关于环境的准确和完整信息,可能很难获得全局最优策略。因此,如何实现移动边缘计算任务的智能分配是一个值得研究的问题。近年来,深度强化学习方法因其强大的学习能力,在智能决策、无人驾驶等领域取得了一些研究进展。
因此,受到深度强化学习的启发,本专利旨在将深度强化学习策略引入到移动边缘计算任务分配,以期实现移动边缘计算任务的智能分配。通过联合设计多边缘云的计算任务分配和计算资源管理,建立延迟和能量消耗的总和最小化的任务分配优化问题模型。在此基础上,将移动边缘计算任务分配问题建模为马尔可夫决策过程,考虑到高维连续动作空间特点,提出多智能体深度强化学习框架,通过设计双延迟深度确定性策略梯度算法,以获得多边缘云的计算任务分配和计算资源管理的近似最优联合策略。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例提供了一种基于深度强化学习的移动边缘计算任务分配方法,包括:
S1:建立多边缘云协作移动边缘计算任务分配优化问题模型,其中,优化问题模型包括约束条件和目标,约束条件包括:每个参与终端设备计算的边缘云的计算任务比例在[0,1]之间,所有参与终端设备计算的边缘云的计算任务比例之和为1,为每个处理终端设备任务的边缘云所分配的计算资源在[0,F]之间;为所有处理终端设备任务的边缘云所分配的计算资源总和为F;目标为以延迟和能量消耗的总和最小化;
S2:将移动边缘计算任务分配问题建模为马尔可夫决策过程;
S3:将深度强化学习策略引入到移动边缘计算任务分配,通过观察当前时刻各终端设备计算任务完成情况,从历史经验中学习,选择下一时刻的最佳任务分配策略,以实现移动边缘计算任务的智能分配。
本发明的主要构思如下:
本发明针对现有移动边缘计算任务分配策略较难适应环境动态性问题,提出基于深度强化学习的移动边缘计算任务分配方法。通过联合设计多边缘云的计算任务分配和计算资源管理,建立延迟和能量消耗的总和最小化的任务分配优化问题模型。在此基础上,将移动边缘计算任务分配问题建模为马尔可夫决策过程,考虑到高维连续动作空间特点,提出多智能体深度强化学习框架,通过设计双延迟深度确定性策略梯度算法,以获得多边缘云的计算任务分配和计算资源管理的近似最优联合策略。
具体来说,步骤S3中设计基于深度强化学习的移动边缘计算任务分配算法,以获得多边缘云的计算任务分配和计算资源管理的近似最优联合策略。请参见图1,为本发明提出的基于深度强化学习的移动边缘计算任务分配方法的流程图。
在一种实施方式中,步骤S1包括:
定义t时刻,第m个终端设备和控制中心之间的数据速率Rm(t):
其中,移动边缘计算系统由M个终端设备、K个边缘云和1个控制中心组成,上行带宽Bu平均分配给每个终端设备,Pm是终端设备m的发射功率,hm(t)为第m个终端设备和控制中心之间的信道增益,为边缘云端的噪声水平;
定义t时刻,第m个终端设备和控制中心之间的任务传输能耗Em(t):
其中,Tm(t)为第m个终端设备和控制中心之间的任务传输延迟,Dm为任务数据大小,Rm(t)为任务数据的传输数据速率,Pr是控制中心的接收功率;
定义t时刻,第k个边缘云处理第m个终端设备任务的计算延迟
其中,为第k个边缘云参与第m个终端设备的计算任务比例,/>为第k个边缘云处理第m个终端设备任务所分配的计算资源,Cm为第m个终端设备处理1bit任务所需的CPU周期数;
根据第m个终端设备和控制中心之间的任务传输延迟、第k个边缘云处理第m个终端设备任务所分配的计算资源,获得第k个边缘云处理第m个终端设备任务的能耗
其中,κ≥0为有效的开关电容;
获取系统总能耗E(t)以及系统总时延T(t), 根据系统总能耗和系统总时延获得系统完成计算任务所消耗的总成本为U(t)=w1E(t)+w2T(t),其中,w1和w2分别是能耗和时延的权重,且w1+w2=1;
通过联合计算任务和计算资源/>分配,构建多边缘云协作移动边缘计算任务分配优化问题模型,移动边缘计算任务分配优化问题模型的目标为最小化系统总成本,即:
其中,F为每个边缘云最大的计算资源。
具体来说,因为终端设备将所有任务上报给控制中心,因此可以得到第m个终端设备和控制中心之间的任务传输延迟Tm(t)。
在接收到来自终端设备的全部输入数据后,控制中心决定边缘云的任务分配比例和计算资源分配测量。从而得到为第k个边缘云参与第m个终端设备的计算任务比例,当/>第k个边缘云不参与第m个终端设备的计算任务。
当所有终端设备的计算任务都完成时,可以得到系统总能耗E(t)。
最后通过联合计算任务和计算资源/>分配,系统任务卸载优化问题(移动边缘计算任务分配问题)可以设计为最小化系统总成本。
在一种实施方式中,步骤S2包括:
移动边缘计算任务分配问题转化为一个马尔可夫决策过程(S;A;p(s′|s,a);r;π(a|s)),具体如下:
状态空间S:当前时刻各终端设备任务数据大小Dm的集合;
动作空间A:计算任务和计算资源/>策略的集合;
转移概率p(s′|s,a):在任务状态s情况下,采用某一动作a时,状态s转变为下一状态s′的概率;
奖励r:控制中心采用某一动作a时,任务状态从s转移到下一任务状态s′获得的成本;
策略π(a|s):在任务状态s时,选择某一任务分配动作a的概率;
其中,定义累积奖励R为所有奖励r的累积,即:
rn表示在第n个时刻获得的奖励,γ为衰减因子且γ∈[0,1),衰减因子决定了未来奖励和当前时刻奖励的重要性。
考虑到当前时刻移动边缘计算任务分配策略所消耗的总成本仅与当前系统状态有关,与之前系统状态无关,因而,可以将移动边缘计算任务分配问题可描述为一个马尔可夫决策过程。当衰减因子接近0时,意味着当前时刻获得的奖励权重较多;反之,当衰减因子接近1时,则意味着控制中心更注重未来时刻获得的奖励。
在一种实施方式中,步骤S3中定义状态s处选择任务分配策略a得到的期望奖励为状态-动作值函数Q(s,a)=E[R|s,a],其中,E[·]为数学期望运算。
具体来说,本发明将深度强化学习策略引入到移动边缘计算任务分配,通过观察当前时刻各终端设备计算任务完成情况,从历史经验中学习,选择下一时刻的最佳任务分配策略,以实现移动边缘计算任务的智能分配。
在一种实施方式中,步骤S3中通过设计双延迟深度确定性策略梯度算法,以获得多边缘云的计算任务分配和计算资源管理的近似最优联合策略,双延迟深度确定性策略梯度算法由一个权重为μ的actor网络和两个权重为θ1和θ2的critic网络组成,actor网络和critic网络都包括各自的Online网络和Target网络,算法具体包括如下步骤:
(1)初始化当前时刻中各终端设备的任务状态s;
(2)利用ε-贪婪策略来选择计算任务和计算资源策略:以概率ε随机选择下一时刻计算任务和计算资源策略,以概率(1-ε)选择满足最优Q(s,a,θ)的策略;
(3)在状态s下,选择计算任务和计算资源策略a,得到奖励r;
(4)状态s转移到下一状态s′;
(5)将上述信息<s,a,r,s′>保存在经验回放存储器D中;
(6)从经验回放存储器D中随机抽取mini-batch样本<s,a,r,s′>;
(7)计算损失函数,借助梯度下降法获得最小损失函数,以更新Online actor网络权重μ和两个Online critic网络权重θ1和θ2;
(8)间隔一定回合后,将Online actor网络权重μ和两个Online critic网络权重θ1和θ2分别复制给相应的Target actor网络μ′和两个Target critic网络权重θ1′和θ2′;
(9)复第2到第8步骤,得到训练好的模型,其中,训练好的模型用于得到计算任务分配和计算资源管理的近似最优联合策略。
本申请发明人通过大量的研究与实践发现,当终端设备数量M较大时,整个状态空间S非常巨大。同时,考虑到上述马尔可夫决策过程中高维连续动作空间特点,本发明提出基于深度强化学习的移动边缘计算任务分配方法,通过设计双延迟深度确定性策略梯度算法,以获得多边缘云的计算任务分配和计算资源管理的近似最优联合策略。
双延迟深度确定性策略梯度算法由一个权重为μ的actor网络和两个权重为θ1和θ2的critic网络组成。采用两个critic网络,能够有效地解决单critic框架中Q值的高估问题。同时,为了提高学习稳定性,上述三个网络均由Online网络和Target网络组成(即actor网络包括Online actor网络和Targetactor网络,critic网络包括Online critic网络和Target critic网络)。
为了稳定训练过程并提高样本效率,控制中心在经验回放池中存储当前经验(当前状态s(t)、下一状态s′(t)、动作a(t)、奖励R(t))。在随机采样Mb个小batch后,通过将sj送入Online actor网络中生成策略πμ(sj),并利用策略梯度策略更新Online actor网络的权重,即
其中,为梯度运算,J(μ)为actor网络的损失函数,/>是状态sj、动作a为πμ(sj)时的状态-动作值函数。
此外,为了防止在Q值的窄峰上过拟合,将随机噪声添加到Target actor网络中,可以实现更平滑的状态-动作值估计。加噪目标动作为其中,是均值0和标准差/>的噪声并被剪裁。则可以得到目标值yj:
然后,基于策略πμ(sj),两个Online critic网络将同时获得两个Q值和/>通过最小化损失函数L(θi),定义为
其中,rj为奖励,δ为学习率,为状态s′j、动作/>时的状态-动作值函数,为状态sj、动作aj时的状态-动作值函数。
于是,上述Online评估网络的权重可更新为
其中,λ表示学习率,和/>分别为actor网络和两个critic网络的梯度运算,J(μ)和L(θi)分别为actor网络和两个critic网络的损失函数。
同时,为了减少时间差异学习导致的错误,Online actor网络的权重的频率低于Online critic网络的频率。在本实施方式中,选择每d个时间步更新Online actor网络。于是,为了稳定训练过程,通过复制相应Online网络的权重,每隔d时间步更新三个Target网络的权重,即
μ′=τμ+(1-τ)μ′1,
θi′=τθi+(1-τ)θi′ 1,i=1,2,
其中,τ表示更新率,等式右边μ′1为更新前Target actor网络权重,等式左边μ′为更新后Target actor网络权重,等式右边θi′ 1为更新前Target critic网络权重,等式左边θi′为更新后Target critic网络权重。
(7)中的损失函数为L(θi),通过对基于深度强化学习的移动边缘计算任务分配算法的训练,可以得到训练好的模型,在模型(算法)测试过程中,在获取当前状态s时,利用上述已训练好的模型,即可得到相应的计算任务分配和计算资源管理的近似最优联合策略。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (2)
1.一种基于深度强化学习的移动边缘计算任务分配方法,其特征在于,包括:
S1:建立多边缘云协作移动边缘计算任务分配优化问题模型,其中,优化问题模型包括约束条件和目标,约束条件包括:每个参与终端设备计算的边缘云的计算任务比例在[0,1]之间,所有参与终端设备计算的边缘云的计算任务比例之和为1,为每个处理终端设备任务的边缘云所分配的计算资源在[0,F]之间;为所有处理终端设备任务的边缘云所分配的计算资源总和为F;目标为以延迟和能量消耗的总和最小化,其中,目标为以延迟和能量消耗的总和最小化包括:获取系统总能耗E(t)以及系统总时延T(t), 根据系统总能耗和系统总时延获得系统完成计算任务所消耗的总成本为U(t)=w1E(t)+w2T(t),其中,w1和w2分别是能耗和时延的权重,且w1+w2=1;
通过联合计算任务和计算资源/>分配,构建多边缘云协作移动边缘计算任务分配优化问题模型,移动边缘计算任务分配优化问题模型的目标为最小化系统总成本,即:
其中,F为每个边缘云最大的计算资源;
S2:将移动边缘计算任务分配问题建模为马尔可夫决策过程;
S3:将深度强化学习策略引入到移动边缘计算任务分配,通过观察当前时刻各终端设备计算任务完成情况,从历史经验中学习,选择下一时刻的最佳任务分配策略,以实现移动边缘计算任务的智能分配;
步骤S2将移动边缘计算任务分配问题转化为一个马尔可夫决策过程(S;A;p(s′|s,a);r;π(a|s)),具体方式为:
状态空间S:当前时刻各终端设备任务数据大小Dm的集合;
动作空间A:计算任务和计算资源/>策略的集合;
转移概率p(s′|s,a):在任务状态s情况下,采用某一动作a时,状态s转变为下一状态s′的概率;
奖励r:控制中心采用某一动作a时,任务状态从s转移到下一任务状态s′获得的成本;
策略π(a|s):在任务状态s时,选择某一任务分配动作a的概率;
其中,定义累积奖励R为所有奖励r的累积,即:
rn表示在第n个时刻获得的奖励,γ为衰减因子且γ∈[0,1),衰减因子决定了未来奖励和当前时刻奖励的重要性;
步骤S3中定义状态s处选择任务分配策略a得到的期望奖励为状态-动作值函数Q(s,a)=E[R|s,a],其中,E[·]为数学期望运算;
步骤S3中通过设计双延迟深度确定性策略梯度算法,以获得多边缘云的计算任务分配和计算资源管理的近似最优联合策略,双延迟深度确定性策略梯度算法由一个权重为μ的actor网络和两个权重为θ1和θ2的critic网络组成,actor网络和critic网络都包括各自的Online网络和Target网络,采用双延迟深度确定性策略梯度算法对模型进行训练,具体包括如下步骤:
(1)初始化当前时刻中各终端设备的任务状态s;
(2)利用ε-贪婪策略来选择计算任务和计算资源策略:以概率ε随机选择下一时刻计算任务和计算资源策略,以概率(1-ε)选择满足最优Q(s,a,θ)的策略;
(3)在状态s下,选择计算任务和计算资源策略a,得到奖励r;
(4)状态s转移到下一状态s′;
(5)将上述信息<s,a,r,s′>保存在经验回放存储器D中;
(6)从经验回放存储器D中随机抽取mini-batch样本<s,a,r,s′>;
(7)计算损失函数,借助梯度下降法获得最小损失函数,以更新Online actor网络权重μ和两个Online critic网络权重θ1和θ2;
(8)间隔一定回合后,将Online actor网络权重μ和两个Online critic网络权重θ1和θ2分别复制给相应的Target actor网络μ′和两个Target critic网络权重θ1′和θ2′;
(9)重复步骤(2)到步骤(8),得到训练好的模型,其中,训练好的模型用于得到计算任务分配和计算资源管理的近似最优联合策略。
2.如权利要求1所述的移动边缘计算任务分配方法,其特征在于,步骤S1包括:
定义t时刻,第m个终端设备和控制中心之间的数据速率Rm(t):
其中,移动边缘计算系统由M个终端设备、K个边缘云和1个控制中心组成,上行带宽Bu平均分配给每个终端设备,Pm是终端设备m的发射功率,hm(t)为第m个终端设备和控制中心之间的信道增益,为边缘云端的噪声水平;
定义t时刻,第m个终端设备和控制中心之间的任务传输能耗Em(t):
其中,Tm(t)为第m个终端设备和控制中心之间的任务传输延迟,Dm为任务数据大小,Rm(t)为任务数据的传输数据速率,Pr是控制中心的接收功率;
定义t时刻,第k个边缘云处理第m个终端设备任务的计算延迟
其中,为第k个边缘云参与第m个终端设备的计算任务比例,/>为第k个边缘云处理第m个终端设备任务所分配的计算资源,Cm为第m个终端设备处理1bit任务所需的CPU周期数;
根据第m个终端设备和控制中心之间的任务传输延迟、第k个边缘云处理第m个终端设备任务所分配的计算资源,获得第k个边缘云处理第m个终端设备任务的能耗
其中,κ≥0为有效的开关电容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110835323.2A CN113568727B (zh) | 2021-07-23 | 2021-07-23 | 一种基于深度强化学习的移动边缘计算任务分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110835323.2A CN113568727B (zh) | 2021-07-23 | 2021-07-23 | 一种基于深度强化学习的移动边缘计算任务分配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113568727A CN113568727A (zh) | 2021-10-29 |
CN113568727B true CN113568727B (zh) | 2024-05-10 |
Family
ID=78166603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110835323.2A Active CN113568727B (zh) | 2021-07-23 | 2021-07-23 | 一种基于深度强化学习的移动边缘计算任务分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113568727B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114025359B (zh) * | 2021-11-01 | 2024-04-23 | 湖南大学 | 基于深度强化学习的资源分配与计算卸载方法、系统、设备及介质 |
CN114065963A (zh) * | 2021-11-04 | 2022-02-18 | 湖北工业大学 | 一种电力物联网中基于深度强化学习的计算任务卸载方法 |
CN114066232B (zh) * | 2021-11-15 | 2022-07-22 | 内蒙古北方重工业集团有限公司 | 基于分布式强化学习和边缘计算的工厂调度方法及系统 |
CN114189877B (zh) * | 2021-12-06 | 2023-09-15 | 天津大学 | 一种面向5g基站的复合式能耗优化控制方法 |
CN114500551B (zh) * | 2021-12-31 | 2024-04-05 | 杭州未名信科科技有限公司 | 边缘计算传输负载均衡方法、装置、设备及存储介质 |
CN114745383A (zh) * | 2022-04-08 | 2022-07-12 | 浙江金乙昌科技股份有限公司 | 一种移动边缘计算辅助多层联邦学习方法 |
CN114786201B (zh) * | 2022-04-28 | 2024-09-03 | 合肥工业大学 | 一种无线网络通信延迟和信道效率动态协同优化方法 |
CN115022319B (zh) * | 2022-05-31 | 2024-09-20 | 浙江理工大学 | 一种基于drl的边缘视频目标检测任务卸载方法及系统 |
CN115334076A (zh) * | 2022-07-08 | 2022-11-11 | 电子科技大学 | 一种边缘服务器的服务迁移方法、系统及边缘服务器设备 |
CN117376355B (zh) * | 2023-10-31 | 2024-07-09 | 重庆理工大学 | 基于超图的b5g海量物联网资源分配方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111405569A (zh) * | 2020-03-19 | 2020-07-10 | 三峡大学 | 基于深度强化学习的计算卸载和资源分配方法及装置 |
CN111885137A (zh) * | 2020-07-15 | 2020-11-03 | 国网河南省电力公司信息通信公司 | 一种基于深度强化学习的边缘容器资源分配方法 |
CN112134916A (zh) * | 2020-07-21 | 2020-12-25 | 南京邮电大学 | 一种基于深度强化学习的云边协同计算迁移方法 |
CN112235835A (zh) * | 2020-09-09 | 2021-01-15 | 广州大学 | 一种时变移动边缘计算网络的动态卸载方法 |
CN113064671A (zh) * | 2021-04-27 | 2021-07-02 | 清华大学 | 基于多智能体的边缘云可扩展任务卸载方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11132608B2 (en) * | 2019-04-04 | 2021-09-28 | Cisco Technology, Inc. | Learning-based service migration in mobile edge computing |
-
2021
- 2021-07-23 CN CN202110835323.2A patent/CN113568727B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111405569A (zh) * | 2020-03-19 | 2020-07-10 | 三峡大学 | 基于深度强化学习的计算卸载和资源分配方法及装置 |
CN111885137A (zh) * | 2020-07-15 | 2020-11-03 | 国网河南省电力公司信息通信公司 | 一种基于深度强化学习的边缘容器资源分配方法 |
CN112134916A (zh) * | 2020-07-21 | 2020-12-25 | 南京邮电大学 | 一种基于深度强化学习的云边协同计算迁移方法 |
CN112235835A (zh) * | 2020-09-09 | 2021-01-15 | 广州大学 | 一种时变移动边缘计算网络的动态卸载方法 |
CN113064671A (zh) * | 2021-04-27 | 2021-07-02 | 清华大学 | 基于多智能体的边缘云可扩展任务卸载方法 |
Non-Patent Citations (1)
Title |
---|
Fang Fu,Zhicai Zhang,Fei Richard Yu, Qiao Yan.An actor-critic reinforcement learning-based resource management in mobile edge computing systems.International Journal of Machine Learning and Cybernetics.2020,第11卷1875-1889. * |
Also Published As
Publication number | Publication date |
---|---|
CN113568727A (zh) | 2021-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113568727B (zh) | 一种基于深度强化学习的移动边缘计算任务分配方法 | |
CN113950066B (zh) | 移动边缘环境下单服务器部分计算卸载方法、系统、设备 | |
CN111629380B (zh) | 面向高并发多业务工业5g网络的动态资源分配方法 | |
CN113543176B (zh) | 基于智能反射面辅助的移动边缘计算系统的卸载决策方法 | |
US12035380B2 (en) | Industrial 5G dynamic multi-priority multi-access method based on deep reinforcement learning | |
CN109947545A (zh) | 一种基于用户移动性的任务卸载及迁移的决策方法 | |
CN113469325B (zh) | 一种边缘聚合间隔自适应控制的分层联邦学习方法、计算机设备、存储介质 | |
CN111556461A (zh) | 一种基于深度q网络的车载边缘网络任务分发卸载方法 | |
CN113141317B (zh) | 流媒体服务器负载均衡方法、系统、计算机设备、终端 | |
US20230153124A1 (en) | Edge network computing system with deep reinforcement learning based task scheduling | |
CN114938381B (zh) | 一种基于深度强化学习的d2d-mec卸载方法 | |
CN115310360A (zh) | 基于联邦学习的数字孪生辅助工业物联网可靠性优化方法 | |
CN116187483A (zh) | 模型训练方法、装置、设备、介质和程序产品 | |
CN115086992A (zh) | 一种分布式语义通信系统以及带宽资源分配方法及装置 | |
CN112312299A (zh) | 服务卸载方法、装置及系统 | |
CN116389270A (zh) | 联邦学习中基于drl联合优化客户端选择和带宽分配的方法 | |
CN116700931A (zh) | 多目标边缘任务调度方法、装置、设备、介质及产品 | |
CN117749796A (zh) | 一种云边算力网络系统计算卸载方法及系统 | |
CN117436485A (zh) | 基于权衡时延和精度的多退出点的端-边-云协同系统及方法 | |
CN117560724A (zh) | 联邦学习的参与者选择与资源分配联合优化方法及系统 | |
CN116843016A (zh) | 一种移动边缘计算网络下基于强化学习的联邦学习方法、系统及介质 | |
CN115129447A (zh) | 一种工业互联网中计及条件风险价值的边缘计算任务卸载方法及计算机设备 | |
Kim et al. | RL-based transmission completion time minimization with energy harvesting for time-varying channels | |
CN118433206B (zh) | 一种基于大数据分析的数据高效存储方法、介质及装置 | |
CN118612855A (zh) | 一种异构无人机任务卸载与资源优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |