CN114390057B - Mec环境下基于强化学习的多接口自适应数据卸载方法 - Google Patents
Mec环境下基于强化学习的多接口自适应数据卸载方法 Download PDFInfo
- Publication number
- CN114390057B CN114390057B CN202210038074.9A CN202210038074A CN114390057B CN 114390057 B CN114390057 B CN 114390057B CN 202210038074 A CN202210038074 A CN 202210038074A CN 114390057 B CN114390057 B CN 114390057B
- Authority
- CN
- China
- Prior art keywords
- action
- state
- agent
- data
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000009471 action Effects 0.000 claims abstract description 54
- 230000006870 function Effects 0.000 claims abstract description 33
- 230000005540 biological transmission Effects 0.000 claims abstract description 29
- 238000005265 energy consumption Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 9
- 238000013528 artificial neural network Methods 0.000 claims abstract description 4
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 230000000875 corresponding effect Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 4
- 230000000977 initiatory effect Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 abstract description 3
- 239000003795 chemical substances by application Substances 0.000 description 47
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/12—Avoiding congestion; Recovering from congestion
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种MEC环境下基于强化学习的多接口自适应数据卸载方法,包括以下步骤:将多个用户设备、边缘基站、服务器数据传输策略构成的环境,建模为一个有限状态的马尔科夫决策模型;基于马尔科夫决策模型构建奖励函数,使用多智能体深度强化学习算法对神经网络进行训练,获得最优决策动作,确定数据卸载的传输方式。强化学习可以实现无模型的状态到动作的高维映射关系的自学习,发明中基于强化学习获得多接口自适应数据卸载方法,有效的缓解服务器端的压力,提升网络资源利用率,达到缓解网络拥堵、降低端到端时延以及减少数据卸载传输能耗的目标。
Description
技术领域
本发明涉及网络中数据传输技术领域,更具体的说是涉及一种MEC环境下基于强化学习的多接口自适应数据卸载方法。
背景技术
在移动互联网技术飞速发展的今天,越来越多的智能设备进入了人们的生活,一些对时间延迟要求较高的应用如移动高清视频、AR/VR等在使用过程中创造了大量的移动网络数据流量。呈爆炸式速度增长的数据流量给移动网络带来的压力和挑战是巨大的,其影响表现在:(1)巨大的回传网链路压力;(2)无线覆盖率低和能量效率低;(3)端到端的时间延迟较大。
随着技术的发展,云计算中心的服务能力也在不断提升,但联网的用户设备数量的增长速度呈几何级别,这使得传统的云计算模式无法很好地满足用户对低时延、高速率的需求,寻找一种比传统云计算模式更为高效的方式是解决当前问题的唯一途径。移动边缘计算(Mobile Edge Computing,MEC)模式的提出能够有效弥补传统云计算模式的不足。MEC是指在移动网络的边缘(即基站或终端)引入计算和存储资源,边缘与云计算中心合作为无线接入网络提供所需资源和计算服务。云计算中心的网络业务可以被移动边缘计算技术“下沉”到边缘,通过边缘侧来达到更接近用户的目的,不但减轻了云计算中心的负担,让一部分业务和数据能够在边缘端进行计算存储,而且还能降低数据传输时延,缓解网络拥堵。
另一方面,为了满足容量需求,内容服务供应商需要部署大量的基站,这无疑会消耗更多的基础设施成本。与此同时,通过蜂窝网络下载内容会产生相应的成本,所产生的成本只能由用户或内容服务供应商承担。为了解决上述问题,利用各种高容量、低成本的互补网络进行数据卸载,数据卸载是指使用互补的网络技术(例如:Wi-Fi 6、Femtocell(微蜂窝)等技术)来卸载原本传输在蜂窝网络(4G、5G通信网络)上的数据流量,缓解核心网传输压力和网络拥塞,提升网络吞吐量、网络传输效率及服务质量(Quality ofService,QoS),降低端到端延时。由于网络的时变性、传输时延、传输能耗等因素,在多网络接口数据卸载中获得一个有效的数据卸载策略仍然是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种MEC环境下基于强化学习的多接口自适应数据卸载方法,应对边缘环境中网络环境变化时,基于静态调度的卸载策略存在实时性差的问题,同时基于边缘侧的卸载策略存在卸载失败率高的问题,从而导致工作流的调度产生时间延迟和能量消耗。强化学习可以实现无模型的、状态到动作的高维映射关系的自学习,接近人类的学习过程。发明中基于强化学习获得多接口自适应数据卸载方法,有效的缓解服务器端的压力,提升网络资源利用率,达到缓解网络拥堵、降低端到端时延以及减少数据卸载传输能耗的目标。
为实现上述目的,本发明采用如下技术方案:
一种MEC环境下基于强化学习的多接口自适应数据卸载方法,包括以下步骤:
将多个用户设备、边缘基站和服务器之间的数据传输策略构成的环境建模为一个有限状态的马尔科夫决策模型;
根据优化目标和网络信息确定当前系统状态;
根据奖励函数对所述马尔科夫决策模型的神经网络进行训练;
基于多智能体深度强化学习算法对当前系统状态下的所述马尔科夫决策模型进行求解;
选择使得奖励函数期望值最小的动作作为最优决策动作,确定数据卸载的传输方式。
进一步的,所述马尔科夫决策模型包括状态函数和动作函数;状态函数表示如下:
s={Rbsi,Rmdi,Bi,Ti};
其中,rbsi∈Rbsi表示边缘基站i的可用资源;rmdi∈Rmdi表示用户设备i的可用资源;表示用户设备i需要卸载的数据量大小,其中,B为总数据大小;Ti表示智能体i需要将数据Bi传输完的时间约束,超过时间约束,数据将会失效;
动作函数表示如下:
a={idle,WiFi,4G,5G};
上式表示智能体可以选择的动作,用户设备在每个决策阶段的动作a是选择通过WiFi或4G或5G网络传输模式进行数据传输,或是保持空闲状态idle。
所述奖励函数包括时延函数和能耗函数;
Ti,t(s,a)=D/Vtran;
其中,D表示需要卸载的数据量,Vtran表示数据的传输速度;
所述能耗函数具体表示如下:
δi,t(s,a)=εtran(l,a)*D/Vtran;
其中,εtran(l,a)表示在单位时间内的传输能量消耗。
进一步的,基于多智能体深度强化学习算法对当前系统状态下的马尔科夫决策模型进行求解的过程为:
每个智能体随机获得一个初始动作Q值;
基于各智能体的局部状态获得决策动作;
执行当前状态下的决策动作,环境到达下一个状态,使用深度强化学习算法对动作Q值进行迭代更新,得到一个最优策略;
利用所述最优策略减少约束时间内的预期总成本;所述预期总成本包括时间延迟和能量消耗。
进一步的,利用下式得到最优策略
A表示智能体可以选择的动作集合;Q*(s,a)表示在状态s执行动作a获得的状态动作值;
迭代学习Q*(s,a),表达式如下:
其中,π=(π1,...,πi),πi表示用户设备i的策略,每个用户设备的目标是减小预期总成本;表示智能体i在时刻t+1基于策略π获得的动作值函数,xt=(s1,...,si)表示在时刻t所有智能体局部状态的集合;an表示智能体n选择的动作;αt∈(0,1]表示学习率; ri,t(s,a)表示智能体i在状态s执行动作a获得的奖励;λ表示折扣因子;a’n表示智能体n在s’的动作,s’表示所有智能体在状态s执行相应动作后环境到达的下一个状态;x’t表示在时间t所有智能体局部环境的集合。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种MEC环境下基于强化学习的多接口自适应数据卸载方法,具有以下有益效果:
(1)本发明在数据卸载问题中引入多个网络接口以及对数据卸载问题进行马尔科夫建模。对于单个边缘计算服务器,随着接入用户设备数量的增多,系统将面临网络拥塞和流量过载等问题。引入多个网络接口,缓解系统的压力,为数据卸载带来更高的的效率。基于研究的多接口网络数据卸载问题,本发明建立马尔科夫决策模型,有利于多智能强化学习算法求解模型,找到最优的数据卸载策略。
(2)本发明中设计了基于多智能体强化学习的数据卸载策略,本发明中的应用场景由多个边缘计算服务器和多个用户设备构成,用户设备可同时接入多个网络接口。用户设备产生各种任务数据,将多个边缘基站视为多个agent,同时考虑数据卸载在网络中的时间延迟和能量消耗,然后基于建立的马尔科夫决策模型,使用多智能体深度强化学习算法求解最优的数据卸载策略,最小化整个模型的时延和能耗。强化学习可以实现状态到动作的高维映射关系的自学习,接近人类的学习过程。发明中基于强化学习获得多接口自适应数据卸载方法,有效的缓解服务器端的压力,提升网络资源利用率,达到缓解网络拥堵、降低端到端时延以及减少数据卸载传输能耗的目标。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明提供的MEC环境下基于强化学习的多接口自适应数据卸载方法的流程图;
图2附图为本发明提供的MEC环境下基于强化学习的多接口自适应数据卸载方法的场景应用示意图;
图3附图为本发明提供的用于求解马尔科夫决策模型的多智能体强化学习算法示意图;
图4附图为传统的数据卸载示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例公开了一种MEC环境下基于强化学习的多接口自适应数据卸载方法,包括以下步骤:
S1:将多个用户设备、边缘基站和服务器之间的数据传输策略构成的环境建模为一个有限状态的马尔科夫决策模型;
S2:根据优化目标和网络信息确定当前系统状态;
S3:根据奖励函数对马尔科夫决策模型的神经网络进行训练;
S4:基于多智能体深度强化学习算法对当前系统状态下的马尔科夫决策模型进行求解;
S5:选择使得奖励函数期望值最小的动作作为最优决策动作,确定数据卸载的传输方式。
在一个具体实施例中,如图2所示,包括多个基站(分别是4G边缘计算服务器和5G边缘计算服务器)、WiFi接入点和多个用户设备。在本实施例中,整个系统的运行过程被划分为多个时隙,其中T={1,...,t,...,|T|}为对应的时隙集合,WiFi接入点只有在特定区域才能接入,5G边缘计算服务器也有一定的范围,4G边缘计算服务器在所有区域都可进行用户设备的数据卸载操作。在每个时隙t,用户设备i获得一个状态s={Rbsi,Rmdi,Bi,Ti},其中,rbsi∈Rbsi表示边缘基站i的可用资源;rmdi∈Rmdi表示用户设备i的可用资源;表示用户设备i需要卸载的数据量大小,其中,B为总数据大小;Ti表示智能体i需要将数据Bi传输完的时间约束,超过时间约束,数据将会失效。
在每个时隙t,用户设备i可以通过强化学习算法来学习数据卸载的决策动作,可以选择的动作有a={idle,WiFi,4G,5G},其中idle表示保持空闲状态,即在该时隙不进行数据卸载,WiFi则表示选择WiFi接入点进行数据卸载,前提是该区域可以进行WiFi接入,4G表示选择4G边缘计算服务器进行数据卸载,5G表示选择5G边缘计算服务器进行数据卸载。
基于强化学习的移动边缘计算的智能数据卸载方法的场景应用示意图建立马尔科夫决策模型。一个马尔科夫决策模型通常由一个元组构成,M={S,A,P,R},S为用户设备的状态,s={Rbsi,Rmdi,Bi,Ti},A为动作a={idle,WiFi,4G,5G},P是状态转移概率,本发明使用的多智能体强化学习算法是基于无模型的迭代算法,不需要对状态转移概率进行定义。R是奖励函数,可以表示为:rt(sπ,a)=θ*(Ti,t(s,a)-Ti)+(1-θ)*δi,t(s,a)。
其中,Ti,t(s,a)=D/Vtran表示时延函数。
其中,D表示需要卸载的数据量,Vtran表示数据的传输速度。
δi,t(s,a)=εtran(l,a)*D/Vtran表示能耗函数。
其中,εtran(l,a)表示在单位时间内的传输能量消耗。
如图3所示,为本发明一实施例提出的用于求解马尔科夫决策模型的多智能体强化学习算法,多智能体系统是对单个智能体系统的一种扩展,其目的是通过多个智能体间的通信,使多智能体共同完成协同任务。多智能体的深度强化学习算法作为“大脑”在多智能体系统中脱颖而出。而如今在人工智能研究领域当中,集体智能(collectiveintelligence)是不可忽视的研究课题,其主要研究多个智能体之间的通信方式,以及多智能体之间的竞争与协作关系,多智能体算法的主要目的则是学习多智能体环境中的最优决策。所以多智能体强化学习算法将作为本发明解决多网络接口数据卸载问题的关键算法。多智能体深度确定性策略梯度(MADDPG)算法具有以下三点技巧:
(1)集中式训练,分布式执行:训练时采用集中式学习训练critic网络与actor网络,使用时actor通过局部信息就能进行决策,critic需要其他智能体的策略信息。
(2)改进了经验回放记录的数据。
(3)利用策略集合效果优化(policy ensemble):对每个智能体学习多个策略,改进时利用所有策略的整体效果进行优化,以提高算法的稳定性以及鲁棒性。
在本发明实例中,将综合考虑时间延迟和能量消耗,使用多智能体强化学习算法来求解马尔科夫决策模型,从而获得延迟和能耗最低的数据卸载策略。其中时延函数和能耗函数由前面提及的奖励函数表示。
本实例的目标是获得最优数据卸载策略π*来尽可能减少从t=1到t=T的预期总成本(时间延迟和能量消耗)。其表达式为:
上式中,rt(s,a)是时间延迟和能量消耗之和,其表达式为:rt(sπ,a)=θ*(Ti,t(s,a)-Ti)+(1-θ)*δi,t(s,a)。
由于考虑的是多个用户设备,π*=(π1,...,πi)使得其中π∈Π。由于考虑的是多个用户设备,这里的策略π=(π1,...,πi),πi表示用户设备i的策略,每个用户终端设备的目标都是减小预期总成本。在本实例中用xt=(s1,...,si)表示在时刻t所有智能体状态的集合,si表示智能体i的状态。最优策略可以从最优Q值中Q*(s,a)获得,如下式所示:
其中,A表示智能体可以选择的动作集合;Q*(s,a)表示在状态s执行动作a获得的状态动作值。
为了学习到收敛的Q*(s,a),使用以下更新规则:
表示智能体i在时刻t+1时基于策略π获得的动作值函数,对每个智能体进行训练。
其中,αt∈(0,1]是学习率,δt表示为:
an表示智能体n选择的动作;ri,t(s,a)表示智能体i在状态s执行动作a获得的奖励;λ表示折扣因子;a’n表示智能体n在s’的动作,s’表示所有智能体在状态s执行相应动作后到达的下一个状态;x’t表示在时间t所有智能体局部环境的集合。
图3中网络结构由本地演员网络、目标演员网络、本地评论家网络和目标评论家网络四个网络构成。本地演员网络和目标演员网络的输入是状态,输出是动作。本地评论家网络和目标评论家网络的输入是状态和动作,输出是对应状态下采取动作的评分。
本地演员网络与环境进行交互,通过状态s得到动作a,对环境执行动作,环境返回下一时刻的状态s’和即时奖励r,用四元组(s,a,r,s’)表示,存放到经验回放池。从经验回放池中批量取样本进行训练,取(s,a,r,s’)中s和a输入到本地评论家网络,得到Q(s,a)。然后取(s,a,r,s’)中s’输入到目标演员网络,得到动作a’。取s’和a’输入到目标评论家网络,得到Q(s’,a’),更新本地评论家网络使得输出Q(s,a)接近Q(s’,a’)。本地演员网络输出的动作,本地评论家网络中给出Q值,更新本地演员网络的参数使Q值最大。每隔固定间隔,使用本地网络的参数更新目标网络的参数。
图4表示传统的数据卸载,设备端数据通过数据网络传输到云中心,当设备的数量增多,网络面临巨大的回传网链路压力,端到端的数据传输延迟加大。面对此类问题,设备端的数据通过WiFi进行传输,将设备端数据卸载到WiFi接入点。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (4)
1.一种MEC环境下基于强化学习的多接口自适应数据卸载方法,其特征在于,包括以下步骤:
将多个用户设备、边缘基站和服务器之间的数据传输策略构成的环境建模为一个有限状态的马尔科夫决策模型;用户设备同时接入多个网络接口;
根据优化目标和网络信息确定当前系统状态;
根据奖励函数对所述马尔科夫决策模型的神经网络进行训练;
基于多智能体深度强化学习算法对当前系统状态下的马尔科夫决策模型进行求解;
选择使得奖励函数期望值最小的动作作为最优决策动作,确定数据卸载的传输方式;
所述马尔科夫决策模型包括状态函数和动作函数;状态函数表示如下:
s={Rbsi,Rmdi,Bi,Ti};
其中,rbsi∈Rbsi表示边缘基站i的可用资源;rmdi∈Rmdi表示用户设备i的可用资源;表示用户设备i需要卸载的数据量大小,其中,B为总数据大小;Ti表示智能体i需要将数据Bi传输完的时间约束,超过时间约束,数据将会失效;
动作函数表示如下:
a={idle,WiFi,4G,5G};
上式表示智能体可以选择的动作,用户设备在每个决策阶段的动作a是选择通过WiFi或4G或5G网络传输模式进行数据传输,或者是保持空闲状态idle。
2.根据权利要求1所述的一种MEC环境下基于强化学习的多接口自适应数据卸载方法,其特征在于,所述奖励函数包括时延函数和能耗函数;所述时延函数具体表示如下:
Ti,t(s,a)=D/Vtran;
其中,D表示需要卸载的数据量,Vtran表示数据的传输速度;
所述能耗函数具体表示如下:
δi,t(s,a)=εtran(l,a)*D/Vtran;
其中,εtran(l,a)表示在单位时间内的传输能量消耗。
3.根据权利要求1所述的一种MEC环境下基于强化学习的多接口自适应数据卸载方法,其特征在于,基于多智能体深度强化学习算法对当前系统状态下的马尔科夫决策模型进行求解的过程为:
每个智能体随机获得一个初始动作Q值;
基于各智能体的局部状态获得决策动作;
执行当前状态下的决策动作,环境到达下一个状态,使用深度强化学习算法对动作Q值进行迭代更新,得到一个最优策略;
利用所述最优策略减少约束时间内的预期总成本;所述预期总成本包括时间延迟和能量消耗。
4.根据权利要求3所述的一种MEC环境下基于强化学习的多接口自适应数据卸载方法,其特征在于,利用下式获得所述最优策略
A表示智能体可以选择的动作集合;Q*(s,a)表示在状态s执行动作a获得的状态动作值;
迭代学习Q*(s,a),表达式如下:
其中,π=(π1,...,πi),πi表示用户设备i的策略,每个用户设备的目标是减小预期总成本;表示智能体i在时刻t+1基于策略π获得的动作值函数,xt=(s1,...,si)表示在时刻t所有智能体局部状态的集合;an表示智能体n选择的动作;αt∈(0,1]表示学习率; ri,t(s,a)表示智能体i在状态s执行动作a获得的奖励;λ表示折扣因子;a’N表示智能体n在S’的动作,s’表示所有智能体在状态s执行相应动作后环境到达的下一个状态;x’t表示在时间t所有智能体局部环境的集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210038074.9A CN114390057B (zh) | 2022-01-13 | 2022-01-13 | Mec环境下基于强化学习的多接口自适应数据卸载方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210038074.9A CN114390057B (zh) | 2022-01-13 | 2022-01-13 | Mec环境下基于强化学习的多接口自适应数据卸载方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114390057A CN114390057A (zh) | 2022-04-22 |
CN114390057B true CN114390057B (zh) | 2024-04-05 |
Family
ID=81202791
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210038074.9A Active CN114390057B (zh) | 2022-01-13 | 2022-01-13 | Mec环境下基于强化学习的多接口自适应数据卸载方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114390057B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114780441B (zh) * | 2022-06-21 | 2022-10-04 | 南京争锋信息科技有限公司 | 一种真实用户智能感知系统中用例的智能策略抓取方法 |
CN115348650B (zh) * | 2022-07-20 | 2024-05-14 | 武汉纺织大学 | 一种提高5g网络节能效率的方法 |
CN115633380B (zh) * | 2022-11-16 | 2023-03-17 | 合肥工业大学智能制造技术研究院 | 一种考虑动态拓扑的多边缘服务缓存调度方法和系统 |
CN116198771B (zh) * | 2023-03-17 | 2024-04-09 | 华南理工大学 | 基于深度强化学习的二维矩形条带包装方法 |
CN117499491B (zh) * | 2023-12-27 | 2024-03-26 | 杭州海康威视数字技术股份有限公司 | 基于双智能体深度强化学习的物联网服务编排方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284832A (zh) * | 2018-09-19 | 2019-01-29 | 南昌工程学院 | 一种基于马尔科夫逻辑网的统计关系学习方法与系统 |
CN111245651A (zh) * | 2020-01-08 | 2020-06-05 | 上海交通大学 | 一种基于功率控制和资源分配的任务卸载方法 |
CN111542107A (zh) * | 2020-05-14 | 2020-08-14 | 南昌工程学院 | 一种基于增强学习的移动边缘网络资源分配方法 |
CN113364630A (zh) * | 2021-06-15 | 2021-09-07 | 广东技术师范大学 | 一种服务质量QoS差异化优化方法、装置 |
CN113612843A (zh) * | 2021-08-02 | 2021-11-05 | 吉林大学 | 一种基于深度强化学习的mec任务卸载和资源分配方法 |
CN113873022A (zh) * | 2021-09-23 | 2021-12-31 | 中国科学院上海微系统与信息技术研究所 | 一种可划分任务的移动边缘网络智能资源分配方法 |
-
2022
- 2022-01-13 CN CN202210038074.9A patent/CN114390057B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284832A (zh) * | 2018-09-19 | 2019-01-29 | 南昌工程学院 | 一种基于马尔科夫逻辑网的统计关系学习方法与系统 |
CN111245651A (zh) * | 2020-01-08 | 2020-06-05 | 上海交通大学 | 一种基于功率控制和资源分配的任务卸载方法 |
CN111542107A (zh) * | 2020-05-14 | 2020-08-14 | 南昌工程学院 | 一种基于增强学习的移动边缘网络资源分配方法 |
CN113364630A (zh) * | 2021-06-15 | 2021-09-07 | 广东技术师范大学 | 一种服务质量QoS差异化优化方法、装置 |
CN113612843A (zh) * | 2021-08-02 | 2021-11-05 | 吉林大学 | 一种基于深度强化学习的mec任务卸载和资源分配方法 |
CN113873022A (zh) * | 2021-09-23 | 2021-12-31 | 中国科学院上海微系统与信息技术研究所 | 一种可划分任务的移动边缘网络智能资源分配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114390057A (zh) | 2022-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114390057B (zh) | Mec环境下基于强化学习的多接口自适应数据卸载方法 | |
Fadlullah et al. | HCP: Heterogeneous computing platform for federated learning based collaborative content caching towards 6G networks | |
CN110809306B (zh) | 一种基于深度强化学习的终端接入选择方法 | |
CN111930436B (zh) | 一种基于边缘计算的随机型任务排队卸载优化方法 | |
CN112367683B (zh) | 基于改进深度q学习的网络选择方法 | |
CN112995950B (zh) | 一种车联网中基于深度强化学习的资源联合分配方法 | |
CN113098714A (zh) | 一种基于深度强化学习的低时延网络切片的方法 | |
Zheng et al. | Digital twin empowered heterogeneous network selection in vehicular networks with knowledge transfer | |
Yang et al. | Cooperative task offloading for mobile edge computing based on multi-agent deep reinforcement learning | |
CN116489712B (zh) | 一种基于深度强化学习的移动边缘计算任务卸载方法 | |
Chua et al. | Resource allocation for mobile metaverse with the Internet of Vehicles over 6G wireless communications: A deep reinforcement learning approach | |
CN116260871A (zh) | 一种基于本地和边缘协同缓存的独立任务卸载方法 | |
Xu et al. | Learning for exception: Dynamic service caching in 5G-enabled MECs with bursty user demands | |
US20240031427A1 (en) | Cloud-network integration oriented multi-access edge computing architecture | |
CN113626104A (zh) | 边云架构下基于深度强化学习的多目标优化卸载策略 | |
CN116321307A (zh) | 一种无蜂窝网络中基于深度强化学习的双向缓存放置方法 | |
CN115065678A (zh) | 一种基于深度强化学习的多智能设备任务卸载决策方法 | |
CN116321293A (zh) | 基于多智能体强化学习的边缘计算卸载和资源分配方法 | |
CN116634500A (zh) | 基于超图匹配计算与通信容量增强的d2d计算卸载方法 | |
Jo et al. | Deep reinforcement learning‐based joint optimization of computation offloading and resource allocation in F‐RAN | |
Wu et al. | Dynamic handoff policy for RAN slicing by exploiting deep reinforcement learning | |
CN113973113A (zh) | 一种面向移动边缘计算的分布式服务迁移方法 | |
CN117858109A (zh) | 基于数字孪生的用户关联、任务卸载和资源分配优化方法 | |
Li et al. | A DDPG-based Transfer Learning Optimization Framework for User Association and Power Control in HetNet | |
Ren et al. | Feat: Towards fast environment-adaptive task offloading and power allocation in mec |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |