CN113973113A - 一种面向移动边缘计算的分布式服务迁移方法 - Google Patents
一种面向移动边缘计算的分布式服务迁移方法 Download PDFInfo
- Publication number
- CN113973113A CN113973113A CN202111254199.7A CN202111254199A CN113973113A CN 113973113 A CN113973113 A CN 113973113A CN 202111254199 A CN202111254199 A CN 202111254199A CN 113973113 A CN113973113 A CN 113973113A
- Authority
- CN
- China
- Prior art keywords
- mobile
- sample
- server
- migration
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013508 migration Methods 0.000 title claims abstract description 95
- 230000005012 migration Effects 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 65
- 238000012549 training Methods 0.000 claims abstract description 25
- 230000003044 adaptive effect Effects 0.000 claims abstract description 15
- 238000005070 sampling Methods 0.000 claims description 38
- 230000006870 function Effects 0.000 claims description 26
- 230000005540 biological transmission Effects 0.000 claims description 20
- 238000004891 communication Methods 0.000 claims description 17
- 238000001228 spectrum Methods 0.000 claims description 17
- 239000003795 chemical substances by application Substances 0.000 claims description 16
- 230000009471 action Effects 0.000 claims description 15
- 230000003993 interaction Effects 0.000 claims description 13
- 230000007246 mechanism Effects 0.000 claims description 13
- 230000006399 behavior Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 235000008694 Humulus lupulus Nutrition 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000009916 joint effect Effects 0.000 claims 1
- 238000002474 experimental method Methods 0.000 abstract description 3
- 230000002787 reinforcement Effects 0.000 abstract description 3
- 238000005265 energy consumption Methods 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 4
- 229920003087 methylethyl cellulose Polymers 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 206010010071 Coma Diseases 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 101100460704 Aspergillus sp. (strain MF297-2) notI gene Proteins 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- XOKSLPVRUOBDEW-UHFFFAOYSA-N pinane Chemical compound CC1CCC2C(C)(C)C1C2 XOKSLPVRUOBDEW-UHFFFAOYSA-N 0.000 description 2
- 238000005295 random walk Methods 0.000 description 2
- 206010073261 Ovarian theca cell tumour Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 208000001644 thecoma Diseases 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1001—Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
- H04L67/1004—Server selection for load balancing
- H04L67/1008—Server selection for load balancing based on parameters of servers, e.g. available memory or workload
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5072—Grid computing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1001—Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
- H04L67/1004—Server selection for load balancing
- H04L67/1023—Server selection for load balancing based on a hash applied to IP addresses or costs
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computer Hardware Design (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
一种面向移动边缘计算的分布式服务迁移方法,属于物联网领域。本方法研究了移动边缘计算MEC中移动管理问题。当设备处在移动状态时,需要在多个边缘服务器之间动态迁移计算任务来保持服务的连续性。由于移动的不确定性,频繁的迁移会增加成本和延迟,不迁移会导致服务中断。因而,在多代理深度强化学习MADRL中,引入了一个自适应权重的深度确定性策略梯度AWDDPG算法来优化多用户任务迁移的成本和延迟,使用集中式训练分布式执行的方法解决任务迁移时的高维度问题。大量实验表明,我们提出的算法与相关算法相比大大降低了服务延迟和迁移成本。
Description
技术领域
本发明属于物联网领域,具体涉及一种面向移动边缘计算的分布式服务迁移方法。
背景技术
近几年随着大数据、人工智能、物联网(IoT)、MEC等技术的不断发展,移动设备在人们的生活中应用越来越广泛,如VR、AR、智能家居等。这些设备通常都具有计算密集和延迟敏感的任务,但是移动设备的资源有限很难满足上述应用需求。传统的解决方法是将计算任务卸载到资源充足的云中心处理,但是长距离的传输会增加计算延迟。MEC是在网络边缘部署服务器,边缘服务器在地理上更接近用户,可以有效的降低服务的延迟。资源受限的移动设备可以将计算任务卸载到MEC服务器上执行来提高服务质量(QoS)。
随着产业界和学术界对MEC的不断研究,大量的卸载模型以及各种分布式环境下的仿真平台被实现,然而MEC仍面临着许多挑战。其中一个比较关键的技术就是动态服务迁移,当移动用户在不同的地理位置移动时,可能需要迁移服务来跟踪用户以确保服务的连续性,何时迁移服务,迁移到哪是目前需要解决的问题。当用户移动时,不迁移服务可能会导致服务中断,频繁迁移服务可能会增加迁移成本。由于用户的移动性,以及迁移成本和传输延迟之间的复杂权衡,做出最佳决策是一个挑战。
目前关于MEC中分布式任务迁移的工作并不多。一些传统的方法通过预测用户的位置来迁移任务,但是在实际应用场景下用户的移动性很难预测。还有将深度Q学习(DQN)应用到任务迁移中,DQN虽然能够处理复杂的状态空间,但是集中处理的方式不能满足多用户边缘计算的任务迁移需求,随着用户数量的增加系统的状态空间和行为空间的维数会呈指数增长。并且在多用户场景下将所有用户的状态联合为全局状态,导致多用户环境不稳定,忽略了用户之间的影响。采用分布式深度强化学习可以有效的解决上述问题,但是在分布式环境中每个agent单独做出决策的同时也不能忽略与环境中其他agent之间的交互。将所有移动用户的本地状态联合为全局状态进行训练,可以解决agent与环境交互问题,但在某些应用场景下,如5G的车路协同车联网应用场景,用户之间交互频繁,联合的全局状态不仅会导致多用户环境的不稳定,而且频繁交互还会增加通信成本。因此,设计一个有效的基于分布式深度强化学习的迁移策略来平衡迁移成本和延迟非常有挑战。
发明内容
本发明的目的是为了解决基于MEC的多用户任务迁移问题,提高移动用户之间的合作,本发明提出了一个基于自适应权重的深度确定性策略梯度(AWDDPG)算法。在考虑迁移成本、QoS、频谱资源分配的情况下,将多用户任务迁移模型看作一个分散的部分可观察的马尔可夫决策过程(Dec-POMDP)。在迁移成本约的束下,将多用户任务迁移问题描述为一个最小化优化问题。提出了一个AWDDPG来解决这个优化问题,通过自适应采样权重提高采样效率,增加算法的收敛速度和稳定性。最后采用集中式训练分布式执行的方式来促进用户之间的协作通信。对于具有时延敏感和计算密集型应用的高动态场景,基于AWDDPG的方案可以快速做出迁移决策。真实的应用场景和仿真实验表明,我们提出的算法可以快速达到稳定收敛,并且在迁移成本和任务平均完成时间方面表现较优,具有一定的实用价值。
本发明的面向移动边缘计算的分布式服务迁移方法,主要包括如下关键步骤:
第1、系统模型的构建:
第1.1、建立回程延迟模型;
第1.2、建立通信延迟模型;
第1.3、建立计算延迟模型;
第1.4、建立迁移成本模型;
第2、自适应权重经验回放机制:
第2.1、样本复杂度;
第2.2、样本回报值重要性模型;
第2.3、样本使用次数模型;
第3、基于AWDDPG分布式任务迁移方法:
第3.1、基于AWDDPG的解;
第3.2、AWDDPG架构。
进一步的,步骤第1.1中建立回程延迟模型,即如果移动用户的本地MEC服务器的计算负载较高时可以将计算任务通过回程链路传输到附近计算任务较少的MEC服务器上处理。MEC服务器之间的传输延迟可以表示为bn/Bm,其中bn表示移动用户n的输入数据大小,Bm表示MEC服务器的输出链路带宽。因此回程延迟可以表示为
其中,λ是一个正系数,d(m1,m2)表示边缘服务器m1与m2之间的跳数。
步骤第1.2中建立通信延迟模型的方法如下,无线通信显著影响任务迁移的效率,通过有效的频谱资源管理可以显著的提高无线通信的质量。为了最小化传输延迟,需要为每个移动用户提供适当数量的频谱资源。Sm表示MEC服务器m可用的频谱资源,t时刻连接到MEC服务器m的所有移动用户共享频谱资源Sm。我们用spen,m(t)表示t时刻,MEC服务器m分配给移动设备n的频谱比例。本发明不考虑返回结果的传输延迟,因为返回的数据比较小可以忽略不计。根据香农定理,移动设备n与边缘服务器m之间的数据传输速率可以表示为:
步骤第1.3中建立计算延迟模型的方法如下:在每个服务器上有多个移动用户共享计算资源,帮助移动设备处理卸载的任务。Fm表示MEC服务器m的计算能力,φn(t)表示在t时刻Taskn所需的CPU周期。因此,如果Taskn在MEC服务器m上完成所需时间可以表示为:
步骤第1.4中建立迁移成本模型的方法如下:为了满足服务的连续性,我们需要在多个服务器之间迁移服务。跨服务器迁移需要额外的迁移成本,我们假设移动设备n将全部卸载的任务从m1迁移到m2。用表示移动设备n在t时刻将Taskn从m1迁移到m2的成本。
进一步的,步骤第2.1中样本复杂度,DDPG结合了DQN和PG的优势,因此DDPG也采用了经验回放机制。使用经验回放机制既能满足样本独立分布的假设又能快速收敛,但是DDPG在回放存储中对样本的采样是随机的,忽略了各个样本的不同重要性,这样会导致样本的采样效率不高。复杂度较低的样本不利于神经网络的学习,而在学习初期神经网络对于高复杂度的训练样本又很难理解,因此,在DDPG的基础上为回放存储中的每个状态样本分配优先级权重,根据优先级权重设置他们的采样概率,提出了一个自适应权重的深度确定性策略梯度算法(AWDDPG)。样本i的复杂度可以表示为CF(si),其主要包括样本回报值的重要性函数RF(ri,DEi)以及关于样本的使用频率函数SUF(numi);
CFi=RF(ri,DEi)+θSUF(numi) (6)
其中,θ为超参数。使用我们新定义的样本复杂度来计算样本的采样概率:
其中,ψ∈[0,1]是指数随机因子。当ψ=0时为均匀采样,ψ=1为优先级采样。随机因子可以保证优先级采样和均匀采样之间保持平衡,避免过拟合现象产生。对回放存储中的样本直接采样会产生一个分布误差,因此我们使用重要性采样权重wi来修正这个偏差。并使用归一化操作来缩小TD误差。
步骤第2.2中我们提出了样本回报值重要性模型,样本回报值的重要性RF(ri,DEi)可以表示如下:
RF(ri,DEi)=|DEi|*RW(ri)+α (9)
其中,DEi=Q(si,ai;θc)-(ri+μQ'(s′i,a′i;θc'))表示TD误差,其中Q(si,ai;θc)是Critic组件evaluate-network的值。α是一个较小的正数,当时间差分为0时,α可以防止无法采样的情况出现。RW(ri)表示对应奖励的权重,由于稳定性的原因我们设置ri∈[-1,1],并且RW(ri)>0。
步骤第2.3中创建样本使用次数模型,当样本使用次数越多时,那么它下一次被选中的概率就越低,这是为了防止过拟合现象的出现,SUF(numi)可以表示如下:
进一步的,步骤第3.1中基于AWDDPG的解为:每个移动用户都部署AWDDPG算法,包括Actor和Critic两个组件。对于移动用户n,在状态sn,Actor组件根据策略πn做出动作。Critic组件根据来评估Actor做出的动作。AWDDPG作为一种策略梯度算法,其主要思想就是通过调整Actor和Critic组件的evaluate-network和target-network的参数来获得最优策略并且学习相对应的状态-行为函数。具体来说,根据上述提出的自适应经验回放机制采样一个批大小为K的样本,逐一输入移动用户中。根据输入的样本,Actor和Critic组件在训练阶段更新evaluate-network参数。第n个移动用户的第i个样本可以表示为Critic组件通过最小化损失函数来调整evaluate-network的参数
其中,Q'n(·)表示第n个移动用户的Critic组件的target-network的行为-状态函数,表示第n个移动用户选取第i个样本的及时奖励。如果是连续可微的,可以用损失函数的梯度来调整因为每个代理的目的是最大化累积奖励,因此通过最大化目标函数来更新Actor组件evaluate-network的参数。
其中AEn(·)表示第n个移动用户的Actor组件的evaluate-network的行为-状态函数,它表示策略πn:当每个关联模式变量放宽放到[0,1]时,代理的动作空间是连续的,AEn(·)也是连续的。在这种情况下,我们可以得出是连续可微的,因此AEn(·)可以在方向上调整。随着和的实时更新,target-network的参数和可以根据公式(14)更新。
步骤第3.2中AWDDPG架构为:将集中式训练和分布式执行的框架应用到AWDDPG算法中。在离线集中训练阶段,除了本地观察状态其他移动用户的观察状态和行为都保存到经验回放缓存区。因此第i个状态样本序列可以改写为通过联合行为和观察的状态不仅能够增加每个阶段生成的训练数量而且能够有效增加agent之间的协作通信。当更新和时,Actor根据自适应权重采集的样本选择动作,即然后Critic再对样本进行评估。当有了全局信息,每个移动用户都可以学习自己的状态-行为值函数。并且,在了解其他移动用户的行为后,离线训练阶段每个移动用户的环境都是固定的,即使是在环境变化频繁的场景中用户也不需要频繁交互,能够有效的解决由于其他移动用户的行为对环境的影响。在决策阶段,由于Actor仅需要本地的观察状态因此移动用户不需要了解其他设备的信息即可选择动作。由移动用户n在时间t观察到的联合状态(15)可以看出移动用户的观察状态主要由整个种群的状态和个体的状态决定,具体来说可以直接由移动用户观察到,s_nserver(t),connect_nserver(t)可以通过整个种群观察到。我们利用单个移动用户与种群之间的交互来近似移动用户与环境之间的交互。
其中,表示服务Taskn在t时刻所需的CPU周期数,表示在t时刻处理Taskn的MEC服务器,s_nserver(t)表示t时刻每个MEC服务器执行计算任务的数量,connect_nserver(t)表示t时刻每个MEC节点连接移动设备的数量。
本发明的优点和积极效果是:
本发明主要设计了一种面向移动边缘计算的分布式服务迁移方法,在该方法中,研究了分布式环境下多用户任务迁移问题。与以前多用户迁移算法不同的是,我们优化了MEC服务器的负载均衡和路由选择,即移动用户会连接到频谱资源最优的本地MEC服务器,如果本地MEC服务器的负载较高时可以将计算任务通过回程链路传输到附近计算任务较少的MEC服务器上处理。并且我们通过改进DDPG的随机采样方法提出一个基于自适应权重的深度确定性策略梯度算法(AWDDPG)来提升样本的采样效率,增加算法的收敛性。最后,根据离线集中训练分布式执行的方法来实现agent与环境之间的交互和稳点的训练环境。与现有一些方法相比,在迁移成本和任务平均完成时间方面表现较优,具有一定的实用价值。
附图说明
图1是系统模型图;
图2是六边形随机游走模型图;
图3是整个系统的迁移成本图;
图4是整个系统的任务执行延迟图;
图5是不同输入数据大小与平均完成时间的关系图;
图6是不同数量用户与平均完成时间的关系图;
图7是不同MEC数量与平均完成时间的关系图;
图8是不同迁移成本预算与平均完成时间的关系图;
图9是不同输入数据大小与平均迁移成本的关系图;
图10是本发明面向移动边缘计算的分布式服务迁移方法的流程图。
具体实施方式
实施例1:
本实例设计的方法使用Python实现所提出的算法,移动设备在多个MEC服务器覆盖范围内随机移动,它们的轨迹都基于二维六边形随机游走模型,如附图2所示。通过实际的应用场景来评估算法的延迟和能耗。此外,我们还对比了不同参数下相近算法的平均延迟和迁移能耗。
参见附图10,本实施例面向移动边缘计算的分布式服务迁移方法,主要包括如下关键步骤:
第1、系统模型的构建,该系统模型如附图1所示:
第1.1、建立回程延迟模型;
第1.2、建立通信延迟模型;
第1.3、建立计算延迟模型;
第1.4、建立迁移成本模型;
第2、自适应权重经验回放机制:
第2.1、样本复杂度;
第2.2、样本回报值重要性模型;
第2.3、样本使用次数模型;
第3、基于AWDDPG分布式任务迁移方法:
第3.1、基于AWDDPG的解;
第3.2、AWDDPG架构。
本发明步骤第1.1中建立回程延迟模型,即如果移动用户的本地MEC服务器的计算负载较高时可以将计算任务通过回程链路传输到附近计算任务较少的MEC服务器上处理。MEC服务器之间的传输延迟可以表示为bn/Bm,其中bn表示移动用户n的输入数据大小,Bm表示MEC服务器的输出链路带宽。因此回程延迟可以表示为
其中,λ是一个正系数,d(m1,m2)表示边缘服务器m1与m2之间的跳数。
步骤第1.2中建立通信延迟模型的方法如下,无线通信显著影响任务迁移的效率,通过有效的频谱资源管理可以显著的提高无线通信的质量。为了最小化传输延迟,需要为每个移动用户提供适当数量的频谱资源。Sm表示MEC服务器m可用的频谱资源,t时刻连接到MEC服务器m的所有移动用户共享频谱资源Sm。我们用spen,m(t)表示t时刻,MEC服务器m分配给移动设备n的频谱比例。本发明不考虑返回结果的传输延迟,因为返回的数据比较小可以忽略不计。根据香农定理,移动设备n与边缘服务器m之间的数据传输速率可以表示为:
步骤第1.3中建立计算延迟模型的方法如下:在每个服务器上有多个移动用户共享计算资源,帮助移动设备处理卸载的任务。Fm表示MEC服务器m的计算能力,φn(t)表示在t时刻Taskn所需的CPU周期。因此,如果Taskn在MEC服务器m上完成所需时间可以表示为:
步骤第1.4中建立迁移成本模型的方法如下:为了满足服务的连续性,我们需要在多个服务器之间迁移服务。跨服务器迁移需要额外的迁移成本,我们假设移动设备n将全部卸载的任务从m1迁移到m2。用表示移动设备n在t时刻将Taskn从m1迁移到m2的成本。
进一步的,步骤第2.1中样本复杂度,DDPG结合了DQN(Deep Q-learning Network)和PG(Policy Gradient)的优势,因此DDPG也采用了经验回放机制。使用经验回放机制既能满足样本独立分布的假设又能快速收敛,但是在回放存储中对样本的采样是随机的,忽略了各个样本的不同重要性,这样会导致样本的采样效率不高。复杂度较低的样本不利于神经网络的学习,而在学习初期神经网络对于高复杂度的训练样本又很难理解,因此,在DDPG的基础上为回放存储中的每个状态样本分配优先级权重,根据优先级权重设置他们的采样概率,提出了一个自适应权重的深度确定性策略梯度算法(AWDDPG)。样本i的复杂度可以表示为CF(si),其主要包括样本回报值的重要性函数RF(ri,DEi)以及关于样本的使用频率函数SUF(numi);
CFi=RF(ri,DEi)+θSUF(numi) (6)
其中,θ为超参数。使用我们新定义的样本复杂度来计算样本的采样概率:
其中,ψ∈[0,1]是指数随机因子。当ψ=0时为均匀采样,ψ=1为优先级采样。随机因子可以保证优先级采样和均匀采样之间保持平衡,避免过拟合现象产生。对回放存储中的样本直接采样会产生一个分布误差,因此我们使用重要性采样权重wi来修正这个偏差。并使用归一化操作来缩小TD误差。
步骤第2.2中我们提出了样本回报值重要性模型,样本回报值的重要性RF(ri,DEi)可以表示如下:
RF(ri,DEi)=|DEi|*RW(ri)+α (9)
其中,DEi=Q(si,ai;θc)-(ri+μQ'(s′i,a′i;θc'))表示TD误差,其中Q(si,ai;θc)是Critic组件evaluate-network的值。α是一个较小的正数,当时间差分为0时,α可以防止无法采样的情况出现。RW(ri)表示对应奖励的权重,由于稳定性的原因我们设置ri∈[-1,1],并且RW(ri)>0。
步骤第2.3中创建样本使用次数模型,当样本使用次数越多时,那么它下一次被选中的概率就越低,这是为了防止过拟合现象的出现,SUF(numi)可以表示如下:
进一步的,步骤第3.1中基于AWDDPG的解为:每个移动用户都部署AWDDPG算法,包括Actor和Critic两个组件。对于移动用户n,在状态sn,Actor组件根据策略πn做出动作。Critic组件根据来评估Actor做出的动作。AWDDPG作为一种策略梯度算法,其主要思想就是通过调整Actor和Critic组件的evaluate-network和target-network的参数来获得最优策略并且学习相对应的状态-行为函数。具体来说,根据上述提出的自适应经验回放机制采样一个批大小为K的样本,逐一输入移动用户中。根据输入的样本,Actor和Critic组件在训练阶段更新evaluate-network参数。第n个移动用户的第i个样本可以表示为Critic组件通过最小化损失函数来调整evaluate-network的参数
其中,Q'n(·)表示第n个移动用户的Critic组件的target-network的行为-状态函数,表示第n个移动用户选取第i个样本的及时奖励。如果是连续可微的,可以用损失函数的梯度来调整因为每个代理的目的是最大化累积奖励,因此通过最大化目标函数来更新Actor组件evaluate-network的参数。
其中AEn(·)表示第n个移动用户的Actor组件的evaluate-network的行为-状态函数,它表示策略πn:当每个关联模式变量放宽放到[0,1]时,代理的动作空间是连续的,AEn(·)也是连续的。在这种情况下,我们可以得出是连续可微的,因此AEn(·)可以在方向上调整。随着和的实时更新,target-network的参数和可以根据公式(14)更新。
步骤第3.2中AWDDPG架构为:将集中式训练和分布式执行的框架应用到AWDDPG算法中。在离线集中训练阶段,除了本地观察状态其他移动用户的观察状态和行为都保存到经验回放缓存区。因此第i个状态样本序列可以改写为通过联合行为和观察的状态不仅能够增加每个阶段生成的训练数量而且能够有效增加agent之间的协作通信。当更新和时,Actor根据自适应权重采集的样本选择动作,即然后Critic再对样本进行评估。当有了全局信息,每个移动用户都可以学习自己的状态-行为值函数。并且,在了解其他移动用户的行为后,离线训练阶段每个移动用户的环境都是固定的,即使是在环境变化频繁的场景中用户也不需要频繁交互,能够有效的解决由于其他移动用户的行为对环境的影响。在决策阶段,由于Actor仅需要本地的观察状态因此移动用户不需要了解其他设备的信息即可选择动作。由移动用户n在时间t观察到的联合状态(15)可以看出移动用户的观察状态主要由整个种群的状态和个体的状态决定,具体来说可以直接由移动用户观察到,s_nserver(t),connect_nserver(t)可以通过整个种群观察到。我们利用单个移动用户与种群之间的交互来近似移动用户与环境之间的交互。
其中,表示服务Taskn在t时刻所需的CPU周期数,表示在t时刻处理Taskn的MEC服务器,s_nserver(t)表示t时刻每个MEC服务器执行计算任务的数量,connect_nserver(t)表示t时刻每个MEC节点连接移动设备的数量。
本实例中我们根据真实的应用场景来验证算法性能,我们将墨尔本CBD地区的125个边缘服务器和817个移动设备的地理信息作为实际的应用场景。根据hold-out方法将训练数据和验证数据分离为4:1,它们是完全独立的。对于每个移动用户,我们将其Critic组件设置4个全连接的隐藏层,神经元为[2048,1024,512,256]。为Actor组件部署2个全连接的隐藏层,神经元个数为[1024,512]和[512,256]。Actor组件的输出层通过tanh函数激活,其他层的神经元通过ReLU函数激活。
1)实验A:随着算法迭代次数的增加,系统的延迟和迁移能耗的变化。
2)实验B:在不同参数下对比相似算法的性能,我们将输入数据的大小从100kb增加到500kb,将移动用户的数量从60个增加到140个,MEC服务器的数量从15个增加到20个,迁移成本预算从0.5GJ增加到3GJ。
实验参数如表1所示。
表1实验参数
本实例将考虑三个性能指标,其分别是:
1.算法的收敛性。随着算法迭代次数的增加,算法在系统能耗和延迟方面是否能达到稳定收敛。
2.不同参数下与相近算法在平均延迟方面的比较。在保持其他变量固定的情况下,我们比较了不同输入数据大小、不同用户数量、不同MEC服务器数量、不同迁移成本预算情况下6种算法的平均完成时间。
3.不同参数下与相近算法在平均迁移能耗方面的比较。随着输入数据大小的增长,6种算法的平均迁移能耗对比。
本实例的仿真实验结果如下:
1.算法的收敛性
附图3和附图4表示在实际的应用场景中使用AWDDPG算法进行任务迁移时整个系统的迁移成本和任务执行的延迟。从附图3、4可以看出随着迭代次数的增长,系统的迁移能耗和任务完成时间逐渐降低,当迭代次数达到400次左右迁移能耗和任务完成时间达到收敛并趋于稳定。
2.不同参数下与相近算法在平均延迟方面的比较
从附图5可以看出任务的平均完成时间随着输入数据大小的增加而增加。这是因为当输入任务的大小增加时,任务的计算延迟也增加。但是与其他算法相比基于AWDDPG的分布式任务迁移算法的平均完成时间明显较低。从图中可以看出AM和NM算法的平均完成时间相对较高,对于AM算法而言,只要移动设备离开当前服务所在的MEC服务器就需要迁移服务,这导致服务迁移的频率增加,当输入数据变大时每次迁移的延迟也会增大,因此平均完成时间也会逐渐增大。对于NM算法,在初始选择MEC服务器时如果有较多的移动设备选择了同一个MEC服务器并且后期不迁移服务,这导致MEC服务器的资源利用率不高增加系统的平均完成时间。ESM算法主要是针对单智能体场景,在多用户场景下性能表现不佳,当输入数据大小变大时平均完成时间增加比较明显。与ESM算法类似,DQN也是针对的单用户场景,但其在优化的过程中考虑的参数比ESM算法要少,因此DQN算法的平均完成时间要比ESM算法更高,但他们的核心算法都是DQN,因此他们的平均完成时间也比较接近。COMA采用了Actor-Critic算法,并采用集中训练分布式执行的方法,忽略了经验回放机制。AWDDPG在COMA的基础上设计了一种自适应权重采样方法增加采样效率,大大增加了算法收敛的速度和稳定性,并且离线集中训练也减少了用之间的交互。因此基于AWDDPG的分布式任务迁移算法的平均完成时间最低。附图6的解释与附图5相似。从附图7可以看出,随着MEC服务器数量的增加,6种算法的平均完成时间都在减小,这是因为随着MEC服务器数量的增长,移动设备的可用资源也变多,并且我们提出的AWDDPG算法的平均完成时间最低。如附图8所示,将每个阶段的迁移成本预算Costbudget从0.5增加到3,其中5种算法随着迁移预算成本的增加,任务的平均完成时间减少。NM算法不需要迁移,因此它的平均完成时间不变。此外,与AM、ESM、COMA、DQN算法相比,基于AWDDPG的分布式任务迁移算法的稳定性随着迁移能量预算的增加而增加。
3.不同参数下与相近算法在平均迁移能耗方面的比较
从附图9可以看出,随着输入数据大小的增长,其中5种算法的平均迁移成本都在增加,因为本文认为迁移成本主要与迁移数据的镜像大小有关。AM算法每次都需要迁移,因此AM算法的迁移能耗会随着输入数据的大小成正比例增长。NM算法不要迁移,因此它的平均迁移能耗为0。较ESM、DQN、COMA相比,本文通过设计自适应权重采样和集中训练分布式执行可以找到更优的迁移策略,因此其迁移成本也是最低。
实验结果表明,AWDDPG通过自适应权重回放机制提升样本的采样效率,减少了算法的迭代次数增加了算法的稳定性,减少了系统的开销。并且,在离线训练阶段,每个代理的环境都是固定的。因此,不会因为用户周边环境频繁变化,而增加用户与其他用户的交互,造成开销过大。因此,本文提出的算法在系统平均延迟和迁移消耗方面与相关算法相比表现最优。
Claims (10)
1.一种面向移动边缘计算的分布式服务迁移方法,其特征在于该方法主要包括如下步骤:
第1、系统模型的构建:
第1.1、建立回程延迟模型;
第1.2、建立通信延迟模型;
第1.3、建立计算延迟模型;
第1.4、建立迁移成本模型;
第2、自适应权重经验回放机制:
第2.1、样本复杂度;
第2.2、样本回报值重要性模型;
第2.3、样本使用次数模型;
第3、基于AWDDPG分布式任务迁移方法:
第3.1、基于AWDDPG的解;
第3.2、AWDDPG架构。
3.如权力要求1所述的面向移动边缘计算的分布式服务迁移方法,其特征在于,步骤第1.2中建立通信延迟模型的方法如下,无线通信显著影响任务迁移的效率,通过有效的频谱资源管理提高无线通信的质量,为了最小化传输延迟,需要为每个移动用户提供适当数量的频谱资源,Sm表示MEC服务器m可用的频谱资源,t时刻连接到MEC服务器m的所有移动用户共享频谱资源Sm,用spen,m(t)表示t时刻,MEC服务器m分配给移动设备n的频谱比例,不考虑返回结果的传输延迟,根据香农定理,移动设备n与边缘服务器m之间的数据传输速率表示为:
6.如权利要求1所述的面向移动边缘计算的分布式服务迁移方法,其特征在于,步骤第2.1中样本复杂度,DDPG结合了DQN和PG的优势,因此DDPG也采用了经验回放机制,因此,为回放存储中的每个状态样本分配优先级权重,样本i的复杂度表示为CF(si),其主要包括样本回报值的重要性函数RF(ri,DEi)以及关于样本的使用频率函数SUF(numi);
其中,ψ∈[0,1]是指数随机因子,当ψ=0时为均匀采样,ψ=1为优先级采样,随机因子保证优先级采样和均匀采样之间保持平衡,避免过拟合现象产生,对回放存储中的样本直接采样会产生一个分布误差,因此使用重要性采样权重wi来修正这个偏差,并使用归一化操作来缩小TD误差,
9.如权利要求1所述的面向移动边缘计算的分布式服务迁移方法,其特征在于,步骤第3.1中基于AWDDPG的解为:每个移动用户都部署AWDDPG算法,包括Actor和Critic两个组件,对于移动用户n,在状态sn,Actor组件根据策略πn做出动作,Critic组件根据来评估Actor做出的动作,AWDDPG作为一种策略梯度算法,是通过调整Actor和Critic组件的evaluate-network和target-network的参数来获得最优策略并且学习相对应的状态-行为函数,具体来说,根据上述提出的自适应经验回放机制采样一个批大小为K的样本,逐一输入移动用户中,根据输入的样本,Actor和Critic组件在训练阶段更新evaluate-network参数,第n个移动用户的第i个样本表示为Critic组件通过最小化损失函数来调整evaluate-network的参数
其中,Q′n(·)表示第n个移动用户的Critic组件的target-network的行为-状态函数,表示第n个移动用户选取第i个样本的及时奖励,如果是连续可微的,用损失函数的梯度来调整因为每个代理的目的是最大化累积奖励,因此通过最大化目标函数来更新Actor组件evaluate-network的参数,
其中AEn(·)表示第n个移动用户的Actor组件的evaluate-network的行为-状态函数,它表示策略πn:当每个关联模式变量放宽放到[0,1]时,代理的动作空间是连续的,AEn(·)也是连续的,在这种情况下,得出是连续可微的,因此AEn(·)在方向上调整,随着和的实时更新,target-network的参数和可以根据公式(14)更新,
10.如权利要求1所述的面向移动边缘计算的分布式服务迁移方法,其特征在于,步骤第3.2中AWDDPG架构为:将集中式训练和分布式执行的框架应用到AWDDPG算法中,在离线集中训练阶段,除了本地观察状态其他移动用户的观察状态和行为都保存到经验回放缓存区,因此第i个状态样本序列改写为通过联合行为和观察的状态不仅能够增加每个阶段生成的训练数量而且能够有效增加agent之间的协作通信,当更新和时,Actor根据自适应权重采集的样本选择动作,即然后Critic再对样本进行评估,当有了全局信息,每个移动用户都学习自己的状态-行为值函数,并且,在了解其他移动用户的行为后,离线训练阶段每个移动用户的环境都是固定的,即使是在环境变化频繁的场景中用户也不需要频繁交互,能够有效的解决由于其他移动用户的行为对环境的影响,在决策阶段,由于Actor仅需要本地的观察状态因此移动用户不需要了解其他设备的信息即可选择动作,由移动用户n在时间t观察到的联合状态(15)看出移动用户的观察状态主要由整个种群的状态和个体的状态决定,具体来说直接由移动用户观察到,而状态s_nserver(t),connect_nserver(t)通过整个种群观察到,利用单个移动用户与种群之间的交互来近似移动用户与环境之间的交互,
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111254199.7A CN113973113B (zh) | 2021-10-27 | 2021-10-27 | 一种面向移动边缘计算的分布式服务迁移方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111254199.7A CN113973113B (zh) | 2021-10-27 | 2021-10-27 | 一种面向移动边缘计算的分布式服务迁移方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113973113A true CN113973113A (zh) | 2022-01-25 |
CN113973113B CN113973113B (zh) | 2023-08-22 |
Family
ID=79588554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111254199.7A Active CN113973113B (zh) | 2021-10-27 | 2021-10-27 | 一种面向移动边缘计算的分布式服务迁移方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113973113B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114564248A (zh) * | 2022-02-23 | 2022-05-31 | 重庆邮电大学 | 移动边缘计算中一种根据用户移动模式计算卸载的方法 |
CN114727336A (zh) * | 2022-04-21 | 2022-07-08 | 中国联合网络通信集团有限公司 | 一种卸载策略确定方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200320397A1 (en) * | 2019-04-04 | 2020-10-08 | Cisco Technology, Inc. | Learning-based service migration in mobile edge computing |
CN111858009A (zh) * | 2020-07-30 | 2020-10-30 | 航天欧华信息技术有限公司 | 基于迁移和强化学习的移动边缘计算系统任务调度方法 |
CN112882815A (zh) * | 2021-03-23 | 2021-06-01 | 南京邮电大学 | 基于深度强化学习的多用户边缘计算优化调度方法 |
-
2021
- 2021-10-27 CN CN202111254199.7A patent/CN113973113B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200320397A1 (en) * | 2019-04-04 | 2020-10-08 | Cisco Technology, Inc. | Learning-based service migration in mobile edge computing |
CN111858009A (zh) * | 2020-07-30 | 2020-10-30 | 航天欧华信息技术有限公司 | 基于迁移和强化学习的移动边缘计算系统任务调度方法 |
CN112882815A (zh) * | 2021-03-23 | 2021-06-01 | 南京邮电大学 | 基于深度强化学习的多用户边缘计算优化调度方法 |
Non-Patent Citations (2)
Title |
---|
YUYA CUI等: "Distributed Task Migration Optimization in MEC by Deep Reinforcement Learning Strategy", 《2021 IEEE 46TH CONFERENCE ON LOCAL COMPUTER NETWORKS (LCN)》 * |
张文献;杜永文;张希权;: "面向多用户移动边缘计算轻量任务卸载优化", 小型微型计算机系统, no. 10 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114564248A (zh) * | 2022-02-23 | 2022-05-31 | 重庆邮电大学 | 移动边缘计算中一种根据用户移动模式计算卸载的方法 |
CN114564248B (zh) * | 2022-02-23 | 2023-12-26 | 北京麦匙科技有限公司 | 移动边缘计算中一种根据用户移动模式计算卸载的方法 |
CN114727336A (zh) * | 2022-04-21 | 2022-07-08 | 中国联合网络通信集团有限公司 | 一种卸载策略确定方法、装置、电子设备及存储介质 |
CN114727336B (zh) * | 2022-04-21 | 2024-04-12 | 中国联合网络通信集团有限公司 | 一种卸载策略确定方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113973113B (zh) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111800828B (zh) | 一种超密集网络的移动边缘计算资源分配方法 | |
CN111405568B (zh) | 基于q学习的计算卸载和资源分配方法及装置 | |
CN111405569A (zh) | 基于深度强化学习的计算卸载和资源分配方法及装置 | |
CN109756578B (zh) | 一种面向动态雾计算网络的低时延任务调度方法 | |
CN112689296B (zh) | 一种异构IoT网络中的边缘计算与缓存方法及系统 | |
CN113286329B (zh) | 基于移动边缘计算的通信和计算资源联合优化方法 | |
CN114625504A (zh) | 一种基于深度强化学习的车联网边缘计算服务迁移方法 | |
CN113364859B (zh) | 车联网中面向mec的联合计算资源分配和卸载决策优化方法 | |
CN113973113B (zh) | 一种面向移动边缘计算的分布式服务迁移方法 | |
CN114390057B (zh) | Mec环境下基于强化学习的多接口自适应数据卸载方法 | |
Hazra et al. | Intelligent service deployment policy for next-generation industrial edge networks | |
CN112272390B (zh) | 基于物理层的任务卸载及带宽分配的处理方法和系统 | |
WO2024174426A1 (zh) | 一种基于移动边缘计算的任务卸载及资源分配方法 | |
CN114205353B (zh) | 一种基于混合动作空间强化学习算法的计算卸载方法 | |
CN114980039B (zh) | D2d协作计算的mec系统中的随机任务调度和资源分配方法 | |
CN116233926A (zh) | 一种基于移动边缘计算的任务卸载及服务缓存联合优化方法 | |
CN114281718A (zh) | 一种工业互联网边缘服务缓存决策方法及系统 | |
Hwang et al. | Deep reinforcement learning approach for uav-assisted mobile edge computing networks | |
CN111930435B (zh) | 一种基于pd-bpso技术的任务卸载决策方法 | |
CN118139116A (zh) | 一种基于粒子群优化策略的车联网计算任务卸载方法 | |
Dai et al. | Priority-Aware Task Offloading and Resource Allocation in Satellite and HAP Assisted Edge-Cloud Collaborative Networks | |
CN114564248B (zh) | 移动边缘计算中一种根据用户移动模式计算卸载的方法 | |
Cui et al. | Resource-Efficient DNN Training and Inference for Heterogeneous Edge Intelligence in 6G | |
Cui et al. | Multi-user reinforcement learning based task migration in mobile edge computing | |
Yao et al. | Performance Optimization in Serverless Edge Computing Environment using DRL-Based Function Offloading |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20220125 Assignee: TIANJIN KEYVIA ELECTRIC Co.,Ltd. Assignor: TIANJIN University OF TECHNOLOGY Contract record no.: X2024980005898 Denomination of invention: A Distributed Service Migration Method for Mobile edge computing Granted publication date: 20230822 License type: Common License Record date: 20240516 |
|
EE01 | Entry into force of recordation of patent licensing contract |