CN113568727A - 一种基于深度强化学习的移动边缘计算任务分配方法 - Google Patents
一种基于深度强化学习的移动边缘计算任务分配方法 Download PDFInfo
- Publication number
- CN113568727A CN113568727A CN202110835323.2A CN202110835323A CN113568727A CN 113568727 A CN113568727 A CN 113568727A CN 202110835323 A CN202110835323 A CN 202110835323A CN 113568727 A CN113568727 A CN 113568727A
- Authority
- CN
- China
- Prior art keywords
- task
- computing
- terminal device
- strategy
- edge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000004364 calculation method Methods 0.000 title claims abstract description 34
- 230000002787 reinforcement Effects 0.000 title claims abstract description 26
- 238000005265 energy consumption Methods 0.000 claims abstract description 24
- 230000008569 process Effects 0.000 claims abstract description 22
- 230000009471 action Effects 0.000 claims abstract description 21
- 238000005457 optimization Methods 0.000 claims abstract description 20
- 230000005540 biological transmission Effects 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 15
- 230000007704 transition Effects 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 5
- 238000009825 accumulation Methods 0.000 claims description 3
- 239000003990 capacitor Substances 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000007726 management method Methods 0.000 description 14
- 238000011160 research Methods 0.000 description 7
- 230000007613 environmental effect Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5072—Grid computing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明提供了一种基于深度强化学习的移动边缘计算任务分配方法,旨在将深度强化学习策略引入到移动边缘计算任务分配,以期实现移动边缘计算任务的智能分配。首先,考虑到用户设备的计算能力和能量容量有限,本专利提出多边缘云协作移动边缘计算系统模型。其次,通过联合设计多边缘云的计算任务分配和计算资源管理,建立延迟和能量消耗的总和最小化的任务分配优化问题模型。再次,为了解决上述非凸优化任务分配问题,将移动边缘计算任务分配问题建模为马尔可夫决策过程。最后,针对上述马尔可夫决策过程中高维连续动作空间特点,提出双延迟深度确定性策略梯度算法,以获得多边缘云的计算任务分配和计算资源管理的近似最优联合策略。
Description
技术领域
本发明涉及无线通信技术领域,尤其涉及一种基于深度强化学习的移动边缘计算任务分配方法。
背景技术
随着移动应用的迅速发展,越来越多的移动应用任务日趋计算密集和延迟敏感性。然而,这些任务可能对计算和电池能力有限的用户设备带来巨大挑战。为了应对这些挑战,移动边缘计算已被视为云计算的扩展,用于移动网络中的数据计算和通信。移动边缘计算将服务器放置在移动网络边缘,并提供计算和存储资源。服务器将更方便地提供计算服务来处理用户设备的密集计算任务,从而降低服务时延和更好的服务质量。
然而,现有移动边缘计算系统考虑单个边缘云的任务分配场景。由于有限的计算和能量容量,单一边缘云可能提供非常有限的任务分配性能,多边缘云协同研究的场景会更合适。同时,几乎所有现有的研究都集中在具有固定用户设备的静态边缘计算系统上。实际上,用户设备在计算过程中总是四处走动,这使得很难获得最佳策略,由此可知,现有技术中的方法存在较难适应环境动态性的技术问题。
发明内容
本发明提出一种基于深度强化学习的移动边缘计算任务分配方法,用于解决或者至少部分解决现有技术中的方法存在的较难适应环境动态性的技术问题。
为了解决上述技术问题,本发明提供了一种基于深度强化学习的移动边缘计算任务分配方法,包括:
S1:建立多边缘云协作移动边缘计算任务分配优化问题模型,其中,优化问题模型包括约束条件和目标,约束条件包括:每个参与终端设备计算的边缘云的计算任务比例在[0,1]之间,所有参与终端设备计算的边缘云的计算任务比例之和为1,为每个处理终端设备任务的边缘云所分配的计算资源在[0,F]之间;为所有处理终端设备任务的边缘云所分配的计算资源总和为F;目标为以延迟和能量消耗的总和最小化;
S2:将移动边缘计算任务分配问题建模为马尔可夫决策过程;
S3:将深度强化学习策略引入到移动边缘计算任务分配,通过观察当前时刻各终端设备计算任务完成情况,从历史经验中学习,选择下一时刻的最佳任务分配策略,以实现移动边缘计算任务的智能分配。
在一种实施方式中,步骤S1包括:
定义t时刻,第m个终端设备和控制中心之间的数据速率Rm(t):
其中,移动边缘计算系统由M个终端设备、K个边缘云和1个控制中心组成,上行带宽Bu平均分配给每个终端设备,Pm是终端设备m的发射功率,hm(t)为第m个终端设备和控制中心之间的信道增益,为边缘云端的噪声水平;
定义t时刻,第m个终端设备和控制中心之间的任务传输能耗Em(t):
其中,κ≥0为有效的开关电容;
获取系统总能耗E(t)以及系统总时延T(t), 根据系统总能耗和系统总时延获得系统完成计算任务所消耗的总成本为U(t)=w1E(t)+w2T(t),其中,w1和w2分别是能耗和时延的权重,且w1+w2=1;
其中,F为每个边缘云最大的计算资源。
在一种实施方式中,步骤S2包括:
移动边缘计算任务分配问题转化为一个马尔可夫决策过程(S;A;p(s′|s,a);r;π(a|s)),具体如下:
状态空间S:当前时刻各终端设备任务数据大小Dm的集合;
转移概率p(s′|s,a):在任务状态s情况下,采用某一动作a时,状态s转变为下一状态s′的概率;
奖励r:控制中心采用某一动作a时,任务状态从s转移到下一任务状态s′获得的成本;
策略π(a|s):在任务状态s时,选择某一任务分配动作a的概率;
其中,定义累积奖励R为所有奖励r的累积,即:
rn表示在第n个时刻获得的奖励,γ为衰减因子且γ∈[0,1),衰减因子决定了未来奖励和当前时刻奖励的重要性。
在一种实施方式中,步骤S3中定义状态s处选择任务分配策略a得到的期望奖励为状态-动作值函数Q(s,a)=E[R|s,a],其中,E[·]为数学期望运算。
在一种实施方式中,步骤S3中通过设计双延迟深度确定性策略梯度算法,以获得多边缘云的计算任务分配和计算资源管理的近似最优联合策略,双延迟深度确定性策略梯度算法由一个权重为μ的actor网络和两个权重为θ1和θ2的critic网络组成,actor网络和critic网络都包括各自的Online网络和Target网络,采用双延迟深度确定性策略梯度算法对模型进行训练,具体包括如下步骤:
(1)初始化当前时刻中各终端设备的任务状态s;
(2)利用ε-贪婪策略来选择计算任务和计算资源策略:以概率ε随机选择下一时刻计算任务和计算资源策略,以概率(1-ε)选择满足最优Q(s,a,θ)的策略;
(3)在状态s下,选择计算任务和计算资源策略a,得到奖励r;
(4)状态s转移到下一状态s′;
(5)将上述信息<s,a,r,s′>保存在经验回放存储器D中;
(6)从经验回放存储器D中随机抽取mini-batch样本<s,a,r,s′>;
(7)计算损失函数,借助梯度下降法获得最小损失函数,以更新Online actor网络权重μ和两个Online critic网络权重θ1和θ2;
(8)间隔一定回合后,将Online actor网络权重μ和两个Online critic网络权重θ1和θ2分别复制给相应的Target actor网络μ′和两个Target critic网络权重θ1′和θ2′;
(9)复第2到第8步骤,得到训练好的模型,其中,训练好的模型用于得到计算任务分配和计算资源管理的近似最优联合策略。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明提供的一种基于深度强化学习的移动边缘计算任务分配方法,首先,考虑到用户设备的计算能力和能量容量有限,构建了多边缘云协作移动边缘计算任务分配优化问题模型,即通过联合设计多边缘云的计算任务分配和计算资源管理,建立延迟和能量消耗的总和最小化的任务分配优化问题模型,并且为了解决上述非凸优化任务分配问题,将移动边缘计算任务分配问题建模为马尔可夫决策过程,最后,将深度强化学习策略引入到移动边缘计算任务分配,通过观察当前时刻各终端设备计算任务完成情况,从历史经验中学习,选择下一时刻的最佳任务分配策略,以实现移动边缘计算任务的智能分配,改善了分配效果,解决了现有技术中的方法存在的较难适应环境动态性的技术问题。
进一步地,针对马尔可夫决策过程中高维连续动作空间特点,提出双延迟深度确定性策略梯度算法,以获得多边缘云的计算任务分配和计算资源管理的近似最优联合策略。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施中提供的一种基于深度强化学习的移动边缘计算任务分配方法的流程图。
具体实施方式
本申请发明人通过大量的研究与实践发现:几乎所有现有的研究都集中在具有固定用户设备的静态边缘计算系统上。然而实际上,用户设备在计算过程中总是四处走动,这使得很难获得最佳策略。基于此,有必要共同考虑计算任务分配和计算资源管理等问题,以获得最小的执行延迟和能耗。但是,由于非凸性质和非平稳环境,如果没有关于环境的准确和完整信息,可能很难获得全局最优策略。因此,如何实现移动边缘计算任务的智能分配是一个值得研究的问题。近年来,深度强化学习方法因其强大的学习能力,在智能决策、无人驾驶等领域取得了一些研究进展。
因此,受到深度强化学习的启发,本专利旨在将深度强化学习策略引入到移动边缘计算任务分配,以期实现移动边缘计算任务的智能分配。通过联合设计多边缘云的计算任务分配和计算资源管理,建立延迟和能量消耗的总和最小化的任务分配优化问题模型。在此基础上,将移动边缘计算任务分配问题建模为马尔可夫决策过程,考虑到高维连续动作空间特点,提出多智能体深度强化学习框架,通过设计双延迟深度确定性策略梯度算法,以获得多边缘云的计算任务分配和计算资源管理的近似最优联合策略。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例提供了一种基于深度强化学习的移动边缘计算任务分配方法,包括:
S1:建立多边缘云协作移动边缘计算任务分配优化问题模型,其中,优化问题模型包括约束条件和目标,约束条件包括:每个参与终端设备计算的边缘云的计算任务比例在[0,1]之间,所有参与终端设备计算的边缘云的计算任务比例之和为1,为每个处理终端设备任务的边缘云所分配的计算资源在[0,F]之间;为所有处理终端设备任务的边缘云所分配的计算资源总和为F;目标为以延迟和能量消耗的总和最小化;
S2:将移动边缘计算任务分配问题建模为马尔可夫决策过程;
S3:将深度强化学习策略引入到移动边缘计算任务分配,通过观察当前时刻各终端设备计算任务完成情况,从历史经验中学习,选择下一时刻的最佳任务分配策略,以实现移动边缘计算任务的智能分配。
本发明的主要构思如下:
本发明针对现有移动边缘计算任务分配策略较难适应环境动态性问题,提出基于深度强化学习的移动边缘计算任务分配方法。通过联合设计多边缘云的计算任务分配和计算资源管理,建立延迟和能量消耗的总和最小化的任务分配优化问题模型。在此基础上,将移动边缘计算任务分配问题建模为马尔可夫决策过程,考虑到高维连续动作空间特点,提出多智能体深度强化学习框架,通过设计双延迟深度确定性策略梯度算法,以获得多边缘云的计算任务分配和计算资源管理的近似最优联合策略。
具体来说,步骤S3中设计基于深度强化学习的移动边缘计算任务分配算法,以获得多边缘云的计算任务分配和计算资源管理的近似最优联合策略。请参见图1,为本发明提出的基于深度强化学习的移动边缘计算任务分配方法的流程图。
在一种实施方式中,步骤S1包括:
定义t时刻,第m个终端设备和控制中心之间的数据速率Rm(t):
其中,移动边缘计算系统由M个终端设备、K个边缘云和1个控制中心组成,上行带宽Bu平均分配给每个终端设备,Pm是终端设备m的发射功率,hm(t)为第m个终端设备和控制中心之间的信道增益,为边缘云端的噪声水平;
定义t时刻,第m个终端设备和控制中心之间的任务传输能耗Em(t):
其中,κ≥0为有效的开关电容;
获取系统总能耗E(t)以及系统总时延T(t), 根据系统总能耗和系统总时延获得系统完成计算任务所消耗的总成本为U(t)=w1E(t)+w2T(t),其中,w1和w2分别是能耗和时延的权重,且w1+w2=1;
其中,F为每个边缘云最大的计算资源。
具体来说,因为终端设备将所有任务上报给控制中心,因此可以得到第m个终端设备和控制中心之间的任务传输延迟Tm(t)。
当所有终端设备的计算任务都完成时,可以得到系统总能耗E(t)。
在一种实施方式中,步骤S2包括:
移动边缘计算任务分配问题转化为一个马尔可夫决策过程(S;A;p(s′|s,a);r;π(a|s)),具体如下:
状态空间S:当前时刻各终端设备任务数据大小Dm的集合;
转移概率p(s′|s,a):在任务状态s情况下,采用某一动作a时,状态s转变为下一状态s′的概率;
奖励r:控制中心采用某一动作a时,任务状态从s转移到下一任务状态s′获得的成本;
策略π(a|s):在任务状态s时,选择某一任务分配动作a的概率;
其中,定义累积奖励R为所有奖励r的累积,即:
rn表示在第n个时刻获得的奖励,γ为衰减因子且γ∈[0,1),衰减因子决定了未来奖励和当前时刻奖励的重要性。
考虑到当前时刻移动边缘计算任务分配策略所消耗的总成本仅与当前系统状态有关,与之前系统状态无关,因而,可以将移动边缘计算任务分配问题可描述为一个马尔可夫决策过程。当衰减因子接近0时,意味着当前时刻获得的奖励权重较多;反之,当衰减因子接近1时,则意味着控制中心更注重未来时刻获得的奖励。
在一种实施方式中,步骤S3中定义状态s处选择任务分配策略a得到的期望奖励为状态-动作值函数Q(s,a)=E[R|s,a],其中,E[·]为数学期望运算。
具体来说,本发明将深度强化学习策略引入到移动边缘计算任务分配,通过观察当前时刻各终端设备计算任务完成情况,从历史经验中学习,选择下一时刻的最佳任务分配策略,以实现移动边缘计算任务的智能分配。
在一种实施方式中,步骤S3中通过设计双延迟深度确定性策略梯度算法,以获得多边缘云的计算任务分配和计算资源管理的近似最优联合策略,双延迟深度确定性策略梯度算法由一个权重为μ的actor网络和两个权重为θ1和θ2的critic网络组成,actor网络和critic网络都包括各自的Online网络和Target网络,算法具体包括如下步骤:
(1)初始化当前时刻中各终端设备的任务状态s;
(2)利用ε-贪婪策略来选择计算任务和计算资源策略:以概率ε随机选择下一时刻计算任务和计算资源策略,以概率(1-ε)选择满足最优Q(s,a,θ)的策略;
(3)在状态s下,选择计算任务和计算资源策略a,得到奖励r;
(4)状态s转移到下一状态s′;
(5)将上述信息<s,a,r,s′>保存在经验回放存储器D中;
(6)从经验回放存储器D中随机抽取mini-batch样本<s,a,r,s′>;
(7)计算损失函数,借助梯度下降法获得最小损失函数,以更新Online actor网络权重μ和两个Online critic网络权重θ1和θ2;
(8)间隔一定回合后,将Online actor网络权重μ和两个Online critic网络权重θ1和θ2分别复制给相应的Target actor网络μ′和两个Target critic网络权重θ1′和θ2′;
(9)复第2到第8步骤,得到训练好的模型,其中,训练好的模型用于得到计算任务分配和计算资源管理的近似最优联合策略。
本申请发明人通过大量的研究与实践发现,当终端设备数量M较大时,整个状态空间S非常巨大。同时,考虑到上述马尔可夫决策过程中高维连续动作空间特点,本发明提出基于深度强化学习的移动边缘计算任务分配方法,通过设计双延迟深度确定性策略梯度算法,以获得多边缘云的计算任务分配和计算资源管理的近似最优联合策略。
双延迟深度确定性策略梯度算法由一个权重为μ的actor网络和两个权重为θ1和θ2的critic网络组成。采用两个critic网络,能够有效地解决单critic框架中Q值的高估问题。同时,为了提高学习稳定性,上述三个网络均由Online网络和Target网络组成(即actor网络包括Online actor网络和Targetactor网络,critic网络包括Online critic网络和Target critic网络)。
为了稳定训练过程并提高样本效率,控制中心在经验回放池中存储当前经验(当前状态s(t)、下一状态s′(t)、动作a(t)、奖励R(t))。在随机采样Mb个小batch后,通过将sj送入Online actor网络中生成策略πμ(sj),并利用策略梯度策略更新Online actor网络的权重,即
于是,上述Online评估网络的权重可更新为
同时,为了减少时间差异学习导致的错误,Online actor网络的权重的频率低于Online critic网络的频率。在本实施方式中,选择每d个时间步更新Online actor网络。于是,为了稳定训练过程,通过复制相应Online网络的权重,每隔d时间步更新三个Target网络的权重,即
μ′=τμ+(1-τ)μ′1,
θi′=τθi+(1-τ)θi′ 1,i=1,2,
其中,τ表示更新率,等式右边μ′1为更新前Target actor网络权重,等式左边μ′为更新后Target actor网络权重,等式右边θi′ 1为更新前Target critic网络权重,等式左边θi′为更新后Target critic网络权重。
(7)中的损失函数为L(θi),通过对基于深度强化学习的移动边缘计算任务分配算法的训练,可以得到训练好的模型,在模型(算法)测试过程中,在获取当前状态s时,利用上述已训练好的模型,即可得到相应的计算任务分配和计算资源管理的近似最优联合策略。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (5)
1.一种基于深度强化学习的移动边缘计算任务分配方法,其特征在于,包括:
S1:建立多边缘云协作移动边缘计算任务分配优化问题模型,其中,优化问题模型包括约束条件和目标,约束条件包括:每个参与终端设备计算的边缘云的计算任务比例在[0,1]之间,所有参与终端设备计算的边缘云的计算任务比例之和为1,为每个处理终端设备任务的边缘云所分配的计算资源在[0,F]之间;为所有处理终端设备任务的边缘云所分配的计算资源总和为F;目标为以延迟和能量消耗的总和最小化;
S2:将移动边缘计算任务分配问题建模为马尔可夫决策过程;
S3:将深度强化学习策略引入到移动边缘计算任务分配,通过观察当前时刻各终端设备计算任务完成情况,从历史经验中学习,选择下一时刻的最佳任务分配策略,以实现移动边缘计算任务的智能分配。
2.如权利要求1所述的移动边缘计算任务分配方法,其特征在于,步骤S1包括:
定义t时刻,第m个终端设备和控制中心之间的数据速率Rm(t):
其中,移动边缘计算系统由M个终端设备、K个边缘云和1个控制中心组成,上行带宽Bu平均分配给每个终端设备,Pm是终端设备m的发射功率,hm(t)为第m个终端设备和控制中心之间的信道增益,为边缘云端的噪声水平;
定义t时刻,第m个终端设备和控制中心之间的任务传输能耗Em(t):
其中,κ≥0为有效的开关电容;
获取系统总能耗E(t)以及系统总时延T(t), 根据系统总能耗和系统总时延获得系统完成计算任务所消耗的总成本为U(t)=w1E(t)+w2T(t),其中,w1和w2分别是能耗和时延的权重,且w1+w2=1;
其中,F为每个边缘云最大的计算资源。
3.如权利要求1所述的移动边缘计算任务分配方法,其特征在于,步骤S2包括:
移动边缘计算任务分配问题转化为一个马尔可夫决策过程(S;A;p(s′|s,a);r;π(a|s)),具体如下:
状态空间S:当前时刻各终端设备任务数据大小Dm的集合;
转移概率p(s′|s,a):在任务状态s情况下,采用某一动作a时,状态s转变为下一状态s′的概率;
奖励r:控制中心采用某一动作a时,任务状态从s转移到下一任务状态s′获得的成本;
策略π(a|s):在任务状态s时,选择某一任务分配动作a的概率;
其中,定义累积奖励R为所有奖励r的累积,即:
rn表示在第n个时刻获得的奖励,γ为衰减因子且γ∈[0,1),衰减因子决定了未来奖励和当前时刻奖励的重要性。
4.如权利要求3所述的移动边缘计算任务分配方法,其特征在于,步骤S3中定义状态s处选择任务分配策略a得到的期望奖励为状态-动作值函数Q(s,a)=E[R|s,a],其中,E[·]为数学期望运算。
5.如权利要4所述的声纹识别方法,其特征在于,步骤S3中通过设计双延迟深度确定性策略梯度算法,以获得多边缘云的计算任务分配和计算资源管理的近似最优联合策略,双延迟深度确定性策略梯度算法由一个权重为μ的actor网络和两个权重为θ1和θ2的critic网络组成,actor网络和critic网络都包括各自的Online网络和Target网络,采用双延迟深度确定性策略梯度算法对模型进行训练,具体包括如下步骤:
(1)初始化当前时刻中各终端设备的任务状态s;
(2)利用ε-贪婪策略来选择计算任务和计算资源策略:以概率ε随机选择下一时刻计算任务和计算资源策略,以概率(1-ε)选择满足最优Q(s,a,θ)的策略;
(3)在状态s下,选择计算任务和计算资源策略a,得到奖励r;
(4)状态s转移到下一状态s′;
(5)将上述信息<s,a,r,s′>保存在经验回放存储器D中;
(6)从经验回放存储器D中随机抽取mini-batch样本<s,a,r,s′>;
(7)计算损失函数,借助梯度下降法获得最小损失函数,以更新Online actor网络权重μ和两个Online critic网络权重θ1和θ2;
(8)间隔一定回合后,将Online actor网络权重μ和两个Online critic网络权重θ1和θ2分别复制给相应的Target actor网络μ′和两个Target critic网络权重θ1′和θ2′;
(9)复第2到第8步骤,得到训练好的模型,其中,训练好的模型用于得到计算任务分配和计算资源管理的近似最优联合策略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110835323.2A CN113568727B (zh) | 2021-07-23 | 一种基于深度强化学习的移动边缘计算任务分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110835323.2A CN113568727B (zh) | 2021-07-23 | 一种基于深度强化学习的移动边缘计算任务分配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113568727A true CN113568727A (zh) | 2021-10-29 |
CN113568727B CN113568727B (zh) | 2024-05-10 |
Family
ID=
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114025359A (zh) * | 2021-11-01 | 2022-02-08 | 湖南大学 | 基于深度强化学习的资源分配与计算卸载方法、系统、设备及介质 |
CN114066232A (zh) * | 2021-11-15 | 2022-02-18 | 内蒙古北方重工业集团有限公司 | 基于分布式强化学习和边缘计算的工厂调度方法及系统 |
CN114189877A (zh) * | 2021-12-06 | 2022-03-15 | 天津大学 | 一种面向5g基站的复合式能耗优化控制方法 |
CN114500551A (zh) * | 2021-12-31 | 2022-05-13 | 杭州未名信科科技有限公司 | 边缘计算传输负载均衡方法、装置、设备及存储介质 |
CN114745383A (zh) * | 2022-04-08 | 2022-07-12 | 浙江金乙昌科技股份有限公司 | 一种移动边缘计算辅助多层联邦学习方法 |
CN115022319A (zh) * | 2022-05-31 | 2022-09-06 | 浙江理工大学 | 一种基于drl的边缘视频目标检测任务卸载方法及系统 |
CN115334076A (zh) * | 2022-07-08 | 2022-11-11 | 电子科技大学 | 一种边缘服务器的服务迁移方法、系统及边缘服务器设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111405569A (zh) * | 2020-03-19 | 2020-07-10 | 三峡大学 | 基于深度强化学习的计算卸载和资源分配方法及装置 |
US20200320397A1 (en) * | 2019-04-04 | 2020-10-08 | Cisco Technology, Inc. | Learning-based service migration in mobile edge computing |
CN111885137A (zh) * | 2020-07-15 | 2020-11-03 | 国网河南省电力公司信息通信公司 | 一种基于深度强化学习的边缘容器资源分配方法 |
CN112134916A (zh) * | 2020-07-21 | 2020-12-25 | 南京邮电大学 | 一种基于深度强化学习的云边协同计算迁移方法 |
CN112235835A (zh) * | 2020-09-09 | 2021-01-15 | 广州大学 | 一种时变移动边缘计算网络的动态卸载方法 |
CN113064671A (zh) * | 2021-04-27 | 2021-07-02 | 清华大学 | 基于多智能体的边缘云可扩展任务卸载方法 |
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200320397A1 (en) * | 2019-04-04 | 2020-10-08 | Cisco Technology, Inc. | Learning-based service migration in mobile edge computing |
CN111405569A (zh) * | 2020-03-19 | 2020-07-10 | 三峡大学 | 基于深度强化学习的计算卸载和资源分配方法及装置 |
CN111885137A (zh) * | 2020-07-15 | 2020-11-03 | 国网河南省电力公司信息通信公司 | 一种基于深度强化学习的边缘容器资源分配方法 |
CN112134916A (zh) * | 2020-07-21 | 2020-12-25 | 南京邮电大学 | 一种基于深度强化学习的云边协同计算迁移方法 |
CN112235835A (zh) * | 2020-09-09 | 2021-01-15 | 广州大学 | 一种时变移动边缘计算网络的动态卸载方法 |
CN113064671A (zh) * | 2021-04-27 | 2021-07-02 | 清华大学 | 基于多智能体的边缘云可扩展任务卸载方法 |
Non-Patent Citations (1)
Title |
---|
FANG FU, ZHICAI ZHANG, FEI RICHARD YU, QIAO YAN: "An actor-critic reinforcement learning-based resource management in mobile edge computing systems", INTERNATIONAL JOURNAL OF MACHINE LEARNING AND CYBERNETICS, vol. 11, 10 February 2020 (2020-02-10), pages 1875 - 1889, XP037191390, DOI: 10.1007/s13042-020-01077-8 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114025359A (zh) * | 2021-11-01 | 2022-02-08 | 湖南大学 | 基于深度强化学习的资源分配与计算卸载方法、系统、设备及介质 |
CN114025359B (zh) * | 2021-11-01 | 2024-04-23 | 湖南大学 | 基于深度强化学习的资源分配与计算卸载方法、系统、设备及介质 |
CN114066232A (zh) * | 2021-11-15 | 2022-02-18 | 内蒙古北方重工业集团有限公司 | 基于分布式强化学习和边缘计算的工厂调度方法及系统 |
CN114189877A (zh) * | 2021-12-06 | 2022-03-15 | 天津大学 | 一种面向5g基站的复合式能耗优化控制方法 |
CN114189877B (zh) * | 2021-12-06 | 2023-09-15 | 天津大学 | 一种面向5g基站的复合式能耗优化控制方法 |
CN114500551A (zh) * | 2021-12-31 | 2022-05-13 | 杭州未名信科科技有限公司 | 边缘计算传输负载均衡方法、装置、设备及存储介质 |
CN114500551B (zh) * | 2021-12-31 | 2024-04-05 | 杭州未名信科科技有限公司 | 边缘计算传输负载均衡方法、装置、设备及存储介质 |
CN114745383A (zh) * | 2022-04-08 | 2022-07-12 | 浙江金乙昌科技股份有限公司 | 一种移动边缘计算辅助多层联邦学习方法 |
CN115022319A (zh) * | 2022-05-31 | 2022-09-06 | 浙江理工大学 | 一种基于drl的边缘视频目标检测任务卸载方法及系统 |
CN115334076A (zh) * | 2022-07-08 | 2022-11-11 | 电子科技大学 | 一种边缘服务器的服务迁移方法、系统及边缘服务器设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113950066B (zh) | 移动边缘环境下单服务器部分计算卸载方法、系统、设备 | |
CN112882815B (zh) | 基于深度强化学习的多用户边缘计算优化调度方法 | |
CN112181666A (zh) | 一种基于边缘智能的设备评估和联邦学习重要性聚合方法、系统、设备和可读存储介质 | |
CN112422644B (zh) | 计算任务卸载方法及系统、电子设备和存储介质 | |
CN114340016B (zh) | 一种电网边缘计算卸载分配方法及系统 | |
CN113141317B (zh) | 流媒体服务器负载均衡方法、系统、计算机设备、终端 | |
US20230153124A1 (en) | Edge network computing system with deep reinforcement learning based task scheduling | |
CN112579194B (zh) | 基于时延和事务吞吐量的区块链共识任务卸载方法及装置 | |
CN113469325A (zh) | 一种边缘聚合间隔自适应控制的分层联邦学习方法、计算机设备、存储介质 | |
CN114124955B (zh) | 一种基于多智能体博弈的计算卸载方法 | |
Yan et al. | Optimal model placement and online model splitting for device-edge co-inference | |
CN113760511B (zh) | 一种基于深度确定性策略的车辆边缘计算任务卸载方法 | |
CN112988285B (zh) | 任务卸载方法和装置、电子设备及存储介质 | |
CN114281718A (zh) | 一种工业互联网边缘服务缓存决策方法及系统 | |
CN116700931A (zh) | 多目标边缘任务调度方法、装置、设备、介质及产品 | |
CN115913712A (zh) | 基于多用户多接入点的任务卸载隐私保护系统及方法 | |
CN117436485A (zh) | 基于权衡时延和精度的多退出点的端-边-云协同系统及方法 | |
CN111488208B (zh) | 基于可变步长蝙蝠算法的边云协同计算节点调度优化方法 | |
CN114938381B (zh) | 一种基于深度强化学习的d2d-mec卸载方法 | |
CN113568727A (zh) | 一种基于深度强化学习的移动边缘计算任务分配方法 | |
CN113568727B (zh) | 一种基于深度强化学习的移动边缘计算任务分配方法 | |
CN115220818A (zh) | 基于深度强化学习的实时依赖型任务卸载方法 | |
CN116069498A (zh) | 一种分布式算力调度方法、装置、电子设备及存储介质 | |
CN115129447A (zh) | 一种工业互联网中计及条件风险价值的边缘计算任务卸载方法及计算机设备 | |
CN114968402A (zh) | 边缘计算任务处理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |