CN111918339A - 移动边缘网络中基于强化学习的ar任务卸载和资源分配方法 - Google Patents

移动边缘网络中基于强化学习的ar任务卸载和资源分配方法 Download PDF

Info

Publication number
CN111918339A
CN111918339A CN202010694439.4A CN202010694439A CN111918339A CN 111918339 A CN111918339 A CN 111918339A CN 202010694439 A CN202010694439 A CN 202010694439A CN 111918339 A CN111918339 A CN 111918339A
Authority
CN
China
Prior art keywords
network
resource allocation
task
reinforcement learning
allocation method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010694439.4A
Other languages
English (en)
Other versions
CN111918339B (zh
Inventor
刘贵忠
陈兴
方胶胶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202010694439.4A priority Critical patent/CN111918339B/zh
Publication of CN111918339A publication Critical patent/CN111918339A/zh
Application granted granted Critical
Publication of CN111918339B publication Critical patent/CN111918339B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/16Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/52Allocation or scheduling criteria for wireless resources based on load
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种移动边缘网络中基于强化学习的AR任务卸载和资源分配方法,包括以下步骤:建立AR应用模型和设定优化目标;设定强化学习网络框架和马尔科夫决策过程的状态、动作和奖励;产生数据并存储到经验回访池中,直到达到一定的数量后开始训练;训练Critic和Actor网络直到网络收敛;网络训练好之后,只需要将状态值输入到Actor网络中就可以得到资源分配和任务卸载方案。本发明为了更加合理地利用资源,将AR应用分割成子任务并考虑了子任务之间的依赖关系,在资源受限和保证时延要求的条件下,可以智能高效的减少每一个用户终端的能量消耗。

Description

移动边缘网络中基于强化学习的AR任务卸载和资源分配方法
【技术领域】
本发明属于无线通信技术领域,涉及一种移动边缘网络中基于强化学习的AR任务卸载和资源分配方法。
【背景技术】
随着第五代通信技术的快速发展,大量的新型视频应用不断涌现,如增强现实和虚拟现实等。这些新型视频应用以其强大的浸入式感官体验获得了广大消费者的青睐,但是这类应用具有低时延和大计算量需求,对目前的通信系统造成了巨大的挑战。在中心云系统中,大计算量的任务被卸载到远端中心云进行处理,这种方法会造成回程网络负载过大,任务时延较高的问题。移动边缘计算(MEC)作为5G的主要技术之一,为解决这些问题提供了很好的思路。
MEC被部署在靠近用户的核心网边缘,这样就可以将大计算量的任务卸载到MEC服务器执行,减少了卸载到中心云所产生的较大传输时延,提高用户体验。但是针对具体的视频应用,还有许多挑战需要被克服。例如:在网络状态波动和资源有限的情况下,如何合理的分配资源和卸载任务是提高用户体验的一个关键因素。因此,在移动边缘网络中针对AR应用的任务卸载和资源分配方法的研究对提高用户体验质量起着决定性的作用。
【发明内容】
本发明的目的在于克服上述现有技术的缺点,提供一种移动边缘网络中基于强化学习的AR任务卸载和资源分配方法,用于解决在网络状态波动和有限的资源情况下,合理的分配资源和卸载任务的技术问题。
为达到上述目的,本发明采用以下技术方案予以实现:
移动边缘网络中基于强化学习的AR任务卸载和资源分配方法,包括以下步骤:
步骤1,将网络中每一个用户的AR任务分为五个子任务,建立五个子任务的有向无环图;所述有向无环图表示五个子任务的依赖关系;
步骤2,针对网络中的所有AR任务建立任务卸载和资源分配联合优化模型;
步骤3,将联合优化模型转化为马尔科夫决策过程,设定马尔科夫决策过程中初始的状态S、动作A和奖励R,通过MADDPG算法训练学习网络,训练目标为最小化每一个用户终端设备的能量消耗,训练结果为AR的任务卸载和资源分配方法;所述分配方法包括MEC服务器计算资源的分配、用户终端计算资源的分配,以及网络中上行和下行通信资源的分配。
本发明的进一步改进在于:
优选的,所述五个子任务为视频源、渲染器、追踪器、映射器和目标识别;所述视频源和渲染器的执行位置为用户终端。
优选的,所述有向无环图为:
Figure BDA0002590527040000021
其中,
Figure BDA0002590527040000022
Figure BDA0002590527040000023
分别表示
Figure BDA0002590527040000024
中点v和边l的集合,
Figure BDA0002590527040000025
Figure BDA0002590527040000026
分别表示在MEC和在用户终端执行任务的点集合,
Figure BDA0002590527040000027
Figure BDA0002590527040000028
分别表示上行链路、下行链路和hold的边集合。
优选的,步骤2中,所述联合优化模型为:
Figure BDA0002590527040000029
其中,:
Figure BDA0002590527040000031
Figure BDA0002590527040000032
分别表示分配给用户u第l个子任务的上行和下行传输资源;
Figure BDA0002590527040000033
Figure BDA0002590527040000034
表示基站分配给用户u的上行和下行传输资源;
Figure BDA00025905270400000310
表示MEC服务器分配给用户u第l个子任务的计算资源;
Figure BDA0002590527040000035
表示本地用户终端分配给用户u第l个子任务的计算资源;gu表示有向图中完成一个AR任务的一条路径,tgu和egu分别表示用于u执行AR一个任务的总时延和总能耗;FMEC表示MEC服务器的总计算资源;
Figure BDA0002590527040000036
表示本地用户终端的总计算资源。
优选的,步骤3中,所述状态S包括当前所有用户采集的视频帧大小、MEC计算资源大小,当前时刻网络的上下行传输资源,初始计算资源和通信资源的分配方案;
动作A为对初始资源分配方案的改变量;
奖励R包括任务完成奖励、体验质量奖励和能量消耗奖励。
优选的,所述任务完成奖励为:
Figure BDA0002590527040000037
其中,ε()表示阶跃函数,su,q表示状态S的第q维数据,χ1234567,b1,b2和b3为常数。
优选的,所述体验质量奖励为:
Figure BDA0002590527040000038
优选的,所述能量消耗奖励为:
Figure BDA0002590527040000039
优选的,步骤3中,学习网络框架中的经验回访池中的数据达到目标数量,开始训练网络;所述经验回访池中放置有episode的状态S;将旧的状态S输入至Actor网络中输出动作A,产生新的网络参数状态S′和奖励R。
优选的,步骤3中,训练网络过程中,每次从经验回放池中抽取一个min-batch的数据(Sj,Aj,S′j,Rj),Critic网络采用如下公式更新网络参数:
Figure BDA0002590527040000041
Figure BDA0002590527040000042
Actor网络采用如下公式更新网络参数:
Figure BDA0002590527040000043
其中,
Figure BDA0002590527040000044
表示Critic网络的目标值,μ和Q分别表示Actor和Critic网络的目标网络,μ′和Q′分别表示Actor和Critic网络的目标网络,θu表示Actor估计网络的参数,
Figure BDA0002590527040000045
表示Aj里面的元素,
Figure BDA0002590527040000046
表示Rj里面的元素,X表示min-batch的大小,γ表示马尔科夫决策过程的折扣因子。
与现有技术相比,本发明具有以下有益效果:
本发明公开了一种移动边缘网络中基于强化学习的AR任务卸载和资源分配方法,该方法将AR任务分解为5个子任务,根据子任务之间的执行依赖关系建立有向无环图;根据用户数目和系统参数(MEC大小,基站带宽等)构建强化学习网络模型,通过将问题转化成马尔科夫决策过程后,利用MADDPG算法训练网络,产生在该状态下的网络资源的分配方案,当网络状态发生变化时,重新输入状态到网络中得到新的资源分配和卸载方案。本发明能够适应快速变化的网络环境,联合优化任务卸载和资源分配问题,在资源有限和保证用户体验的情况下,可以智能高效的减少用户终端的能耗。
进一步的,根据马尔科夫决策过程训练网络过程确定状态S、动作A和奖励R;接着将每一个episode的状态S输入到Actor网络中输出动作A,产生新的状态S′和奖励R;以(S,A,R,S′)形式将数据存储到经验回访池中;当经验池的数据达到一定的数量,每一次从经验回放池中抽样一个min-batch的数据去训练网络参数,这样不断更新网络直到收敛;训练完成之后,在具体的应用过程中,当用户请求AR应用时,将当前状态S输入到Actor网络中就会得到具体的资源分配和任务卸载方案。
【附图说明】
图1为本发明的流程示意图;
图2为AR任务模块图;
图3为AR应用执行过程的有向无环图;
图4为MADDPG网络框架;
图5为三种算法针对每一个用户的奖励对比图;
图6为三种算法针对每一个用户的能量消耗对比图;
图7为三种算法在每一个episode的平均能量消耗对比图。
【具体实施方式】
下面结合附图对本发明做进一步详细描述:
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制;术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性;此外,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
假设一个MEC服务器同时服务多个基站,一个基站服务多个用户的场景,基站的集合表示为:n∈{1,2,…N},用户的集合表示为:u∈{1,2,…,U}。为了合理地利用资源,一个AR应用被划分为5个子任务k∈{1,2,3,4,5},包括:视频源、追踪器、映射器、目标识别和渲染器。如果2所示,视频源和渲染器这两个子任务必须被执行在本地用户终端上,其他的子任务可以被执行在本地用户终端也可以被执行在MEC服务器上。每一个任务的参数可以被
Figure BDA0002590527040000061
定义,
Figure BDA0002590527040000062
分别表示第k个子任务的数据大小和计算负载,两者的关系可以被表示为
Figure BDA0002590527040000063
表示处理一个bit的数据需要的计算负载,每一个用户请求的AR任务的时延限制被表示为Tu。根据以上系统场景和优化目标,将AR应用执行过程建模成一个有向无环图
Figure BDA0002590527040000064
其中,
Figure BDA0002590527040000065
Figure BDA0002590527040000066
分别表示
Figure BDA0002590527040000067
中点v和边l的集合,
Figure BDA0002590527040000068
Figure BDA0002590527040000069
分别表示在MEC和在用户终端执行任务的点集合,
Figure BDA00025905270400000610
Figure BDA00025905270400000611
分别表示上行链路、下行链路和hold的边集合,hold表示在前一个子任务和后一个子任务都在同一个地方(MEC和用户终端)执行任务。gu被定义为有向图中能够完成一个AR任务的一条路径,由点集合
Figure BDA00025905270400000612
Figure BDA00025905270400000613
组成。
Figure BDA00025905270400000614
表示路径gu中在用户终端执行的点,
Figure BDA00025905270400000615
表示路径gu中在MEC服务器执行的点。
本发明以最小化每一个用户终端的能耗为目标,在资源受限和保证时延要求的条件下,对应的任务卸载和资源分配联合优化问题为:
Figure BDA0002590527040000071
参见图1,本发明所述的移动边缘网络中基于强化学习的AR任务卸载和资源分配方法包括以下步骤:
步骤1,对AR应用进行建模,将一个AR任务分成5个子任务,并且5个子任务之间具有一定的依赖关系,执行任务过程中,5个任务被依次有序的执行;在受限于资源和保证时延要求的条件下,设定优化目标为尽可能最小化每一个用户终端的能量消耗;
参见图2和图3,将AR任务分成5个子任务(视频源、追踪器、映射器、目标识别和渲染器),其中视频源和渲染器必须被执行本地用户设备,其他的子任务可以被执行在用户终端,也可以被执行在MEC服务器。将一个AR子任务的执行过程建模成一个有向无环图:
Figure BDA0002590527040000072
如图2所示。其中,
Figure BDA0002590527040000073
Figure BDA0002590527040000074
分别表示
Figure BDA0002590527040000075
中点v和边l的集合,
Figure BDA0002590527040000076
Figure BDA0002590527040000077
分别表示在MEC和在用户终端执行任务的点集合,
Figure BDA0002590527040000078
Figure BDA0002590527040000079
分别表示上行链路、下行链路和hold的边集合,hold表示在前一个子任务和后一个子任务都在同一个地方(MEC和用户终端)执行任务。gu被定义为有向图中能够完成一个AR任务的一条路径,由点集合
Figure BDA00025905270400000710
Figure BDA00025905270400000711
组成。
Figure BDA00025905270400000712
表示路径gu中在用户终端执行的点,
Figure BDA00025905270400000713
表示路径gu中在MEC服务器执行的点。因此,用户u执行AR任务的总时延和总能耗被表示为:
Figure BDA0002590527040000081
Figure BDA0002590527040000082
其中,s和c表示一个边的起点和终点,
Figure BDA0002590527040000083
Figure BDA0002590527040000084
表示从点s到c的传输时间,tu,v和eu,v表示在点v的任务执行时间。
步骤2,设定优化目标,在资源受限和满足时延要求的前提下,尽可能最小化每一个用户终端设备的能量消耗;
尽可能最小化每一个用户终端的能耗为目标,构建任务卸载和资源分配联合优化模型:
Figure BDA0002590527040000085
其中,
Figure BDA0002590527040000086
Figure BDA0002590527040000087
分别表示分配给用户u第l个子任务的上行和下行传输资源;系统采用OFDMA传输技术,将系统总带宽按照用户个数均分为U个子带,
Figure BDA0002590527040000088
Figure BDA0002590527040000089
表示基站分配给用户u的上行和下行传输资源;
Figure BDA00025905270400000812
表示MEC服务器分配给用户u第l个子任务的计算资源;
Figure BDA00025905270400000810
表示本地用户终端分配给用户u第l个子任务的计算资源;gu表示有向图中完成一个AR任务的一条路径,tgu和egu分别表示用于u执行AR一个任务的总时延和总能耗;FMEC表示MEC服务器的总计算资源;
Figure BDA00025905270400000811
表示本地用户终端的总计算资源。
c1表示为了保证服务质量,AR应用的执行时延不超过一定的界限;c2表示AR应用有向无环图中所有上行链路传输资源不超过该用户的上行传输资源;c3表示AR应用有向无环图中所有下行链路传输资源不超过该用户的下行传输资源;c4表示MEC分配给所有用户的计算资源不超过MEC总计算资源;c5表示用户终端分配给五个子任务的计算资源不超过用户终端总计算能力。
步骤3,根据用户个数设置强化学习网络框架MADDPG(多智能体深度确定性策略梯度),具体的为根据用户数目选定MADDPG的智能体数目,根据基站带宽和MEC计算能力大小设置马尔科夫决策过程的状态S,动作A和奖励R;
状态S由当前所有用户采集的视频帧大小、MEC计算资源大小,当前时刻网络的上下行传输资源,初始计算资源和通信资源的分配方案组成。
动作A由对初始资源分配方案的改变量大小组成。
奖励R由三个阶段的奖励组成:
3.1)任务完成奖励
Figure BDA0002590527040000091
任务完成奖励等式右边第一项表示分配的计算资源必须都大于0,第二、三、四和五项表示分配的计算资源和通信资源不能超过资源总量。
3.2)体验质量奖励
Figure BDA0002590527040000092
体验质量奖励表示AR应用的执行时延必须限制在一定的界限内,保证服务质量。
3.3)能量消耗奖励
Figure BDA0002590527040000106
能量消耗奖励表示AR应用执行所消耗的用户终端能量越小,奖励越大。
上式中,ε()表示阶跃函数,su,q表示状态S的第q维数据,χ1,χ2,χ3,χ4,χ5,χ6,χ7,b1,b2,b3为常数,目的是为使得奖励变成连续的数据量。
步骤4,在训练网络之前,按照(S,A,R,S′)形式存储一定数量的数据到经验回放池Φ中,数量值根据多次试验结果而确定;
步骤5:当经验回放池中的数据达到设定的数量后,开始训练网络,否则,继续重复步骤4;
步骤6,训练开始后,每次从经验回放池中抽样一个min-batch的数据进行训练,与此同时,每一个episode中产生的数据(S,A,R,S′)放入到经验回放池中,将经验回放池中最前面的数据从经验回放池中去除,经验回放池维持先进先出的原则,使得经验回放池中的数据为一个不断更新的过程,不断的进行数据训练,直到网络收敛;所述Actor网络和Critic网络属于MADDPG。
步骤6.1):开始训练网络,从经验回放池中抽取一个min-batch的数据(Sj,Aj,S′j,Rj),对应的前面经验回访池中的(S,A,R,S′)),进行训练,Critic网络采用如下公式更新网络参数:
Figure BDA0002590527040000101
Figure BDA0002590527040000102
Actor网络采用如下公式更新网络参数:
Figure BDA0002590527040000103
其中,
Figure BDA0002590527040000104
表示Critic网络的目标值,μ和Q分别表示Actor和Critic网络的目标网络,μ′和Q′分别表示Actor和Critic网络的目标网络,θu表示Actor估计网络的参数,
Figure BDA0002590527040000105
表示Aj里面的元素,
Figure BDA0002590527040000111
表示Rj里面的元素,X表示min-batch的大小,γ表示马尔科夫决策过程的折扣因子。
步骤7,网络训练好之后,在具体的应用过程中,当用户请求AR任务时,将当前时刻的状态S输入到Actor网络中得到动作A,动作A对状态S中的资源分配方案进行调整得到当前时刻的资源分配和任务卸载方案;
步骤8,当网络状态发生改变时,只需要重新输入新的状态S到MADDPG中的Actor网络可以得到新的资源分配和任务卸载方案。
实施例:
下面参考图1进行详细的说明:
步骤11):将一个AR应用分成5个子任务,并且5个子任务之间具有一定的依赖关系,如图2所示。在受限于资源和保证时延要求的条件下,设定优化目标为尽可能最小化每一个用户终端的能量消耗;
步骤12):根据用户数目选定MADDPG的用户数目,设定马尔科夫决策过程的状态、动作和奖励;
状态S由当前所有用户采集的视频帧大小、MEC计算资源大小,当前时刻网络的上下行传输资源,初始计算资源和通信资源的分配方案组成。
动作A由对初始资源分配方案的改变量大小组成。
奖励R由三个阶段的奖励组成:
1)任务完成奖励
Figure BDA0002590527040000121
2)体验质量奖励
Figure BDA0002590527040000122
3)能量消耗奖励
Figure BDA0002590527040000123
步骤13):将每一个episode中产生的数据(S,A,R,S′)放入到经验回放池中。
步骤14):当经验回放池中的数据达到一定的数量后,开始训练网络,否则,继续重复步骤13);
步骤15):开始训练网络,从经验回放池中抽取一个min-batch的数据进行训练,Critic网络采用如下公式更新网络参数:
Figure BDA0002590527040000124
Figure BDA0002590527040000125
Actor网络采用如下公式更新网络参数:
Figure BDA0002590527040000126
步骤16):网络训练好之后,就不需要Critic网络,每一次只需要将状态值输入到Actor网络中就可以得到资源分配和任务卸载方案。
参见图4为MADDPG网络框架,从图中可以看出MADDPG框架是将AC(Actor-Critic)和DQN(深度Q网络)相结合起来,具有集中训练,分散执行的特点,主要针对状态和动作空间维度巨大或者连续的情况,能够很好的处理环境动态变化问题,每一个智能体都由Actor和Critic网络构成,每一个Actor和Critic网络都分别由估计网络和目标网络构成,每一个智能体的Critic网络都考虑了其他智能体的动作和状态,从全局的角度做出合理的动作。在网络训练好之后,就不需要Critic网络,只需将状态输入到Actor中即可得出具体的动作。
实施例
仿真参数设置
仿真平台采用DELL PowerEdge(DELL-R940XA,4*GOLD-5117,RTX2080Ti)具体的仿真参数如表1,2所示。对比算法采用贪婪(GREEDY)和本地执行(LOCAL)两种算法,本发明对应的算法表示为PORPOSED算法.
表1参数设置
Figure BDA0002590527040000131
Figure BDA0002590527040000141
实验结果和分析
图5和图6展示了三种算法在奖励和能量消耗方面的性能。从图5可以看出本发明的算法在每一个用户的奖励上具有较好的性能。这个原因主要是有两部分组成:1)通信网络的状态是不断变化的;2)各个用户之间是竞争关系,一个用户的产生变化就会影响其他用户。贪婪(GREEDY)算法不能很好的解决变化环境中的问题。本地(LOCAL)算法是指所有的子任务都执行的本地用户设备,因此LOCAL算法的奖励是最小的。在网络的训练过程中,MADDPG框架能够获取其他用户的状态和动作,可以从全局的角度做一个合理的决策。从图6可以看出,本发明提出的算法的能量消耗是最小的。从能量消耗的奖励设置可以看出,在满足时延约束发的条件下,奖励和能量消耗之间是指数关系。因此图5和图6是一一对应的关系。
图7展示了三种算法的鲁棒性。与LOCAL和GREEDY算法比较,明提出算法的平均能耗波动是最小的。LOCAL和GREEDY算法不能很好的解决动态变化的网络环境问题。如果一个用户的网络链路很差,那么这个用户就不需要很多的资源。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.移动边缘网络中基于强化学习的AR任务卸载和资源分配方法,其特征在于,包括以下步骤:
步骤1,将网络中每一个用户的AR任务分为五个子任务,建立五个子任务的有向无环图;所述有向无环图表示五个子任务的依赖关系;
步骤2,针对网络中的所有AR任务建立任务卸载和资源分配联合优化模型;
步骤3,将联合优化模型转化为马尔科夫决策过程,设定马尔科夫决策过程中初始的状态S、动作A和奖励R,通过MADDPG算法训练学习网络,训练目标为最小化每一个用户终端设备的能量消耗,训练结果为AR的任务卸载和资源分配方法;所述分配方法包括MEC服务器计算资源的分配、用户终端计算资源的分配,以及网络中上行和下行通信资源的分配。
2.根据权利要求1所述的移动边缘网络中基于强化学习的AR任务卸载和资源分配方法,其特征在于,所述五个子任务为视频源、渲染器、追踪器、映射器和目标识别;所述视频源和渲染器的执行位置为用户终端。
3.根据权利要求1所述的移动边缘网络中基于强化学习的AR任务卸载和资源分配方法,其特征在于,所述有向无环图为:
Figure FDA0002590527030000011
其中,
Figure FDA0002590527030000012
Figure FDA0002590527030000013
分别表示
Figure FDA0002590527030000014
中点v和边l的集合,
Figure FDA0002590527030000015
Figure FDA0002590527030000016
分别表示在MEC和在用户终端执行任务的点集合,
Figure FDA0002590527030000017
Figure FDA0002590527030000018
分别表示上行链路、下行链路和hold的边集合。
4.根据权利要求1所述的移动边缘网络中基于强化学习的AR任务卸载和资源分配方法,其特征在于,步骤2中,所述联合优化模型为:
Figure FDA0002590527030000021
其中,:
Figure FDA0002590527030000022
Figure FDA0002590527030000023
分别表示分配给用户u第l个子任务的上行和下行传输资源;
Figure FDA0002590527030000024
Figure FDA0002590527030000025
表示基站分配给用户u的上行和下行传输资源;fu v表示MEC服务器分配给用户u第l个子任务的计算资源;
Figure FDA0002590527030000026
表示本地用户终端分配给用户u第l个子任务的计算资源;gu表示有向图中完成一个AR任务的一条路径,
Figure FDA0002590527030000027
Figure FDA0002590527030000028
分别表示用于u执行AR一个任务的总时延和总能耗;FMEC表示MEC服务器的总计算资源;
Figure FDA0002590527030000029
表示本地用户终端的总计算资源。
5.根据权利要求1所述的移动边缘网络中基于强化学习的AR任务卸载和资源分配方法,其特征在于,步骤3中,所述状态S包括当前所有用户采集的视频帧大小、MEC计算资源大小,当前时刻网络的上下行传输资源,初始计算资源和通信资源的分配方案;
动作A为对初始资源分配方案的改变量;
奖励R包括任务完成奖励、体验质量奖励和能量消耗奖励。
6.根据权利要求5所述的移动边缘网络中基于强化学习的AR任务卸载和资源分配方法,其特征在于,所述任务完成奖励为:
Figure FDA0002590527030000031
其中,ε()表示阶跃函数,su,q表示状态S的第q维数据,χ1234567,b1,b2和b3为常数。
7.根据权利要求5所述的移动边缘网络中基于强化学习的AR任务卸载和资源分配方法,其特征在于,所述体验质量奖励为:
Figure FDA0002590527030000032
8.根据权利要求5所述的移动边缘网络中基于强化学习的AR任务卸载和资源分配方法,其特征在于,所述能量消耗奖励为:
Figure FDA0002590527030000033
9.根据权利要求1所述的移动边缘网络中基于强化学习的AR任务卸载和资源分配方法,其特征在于,步骤3中,学习网络框架中的经验回访池中的数据达到目标数量,开始训练网络;所述经验回访池中放置有episode的状态S;将旧的状态S输入至Actor网络中输出动作A,产生新的网络参数状态S′和奖励R。
10.根据权利要求9所述的移动边缘网络中基于强化学习的AR任务卸载和资源分配方法,其特征在于,步骤3中,训练网络过程中,每次从经验回放池中抽取一个min-batch的数据(Sj,Aj,S′j,Rj),Critic网络采用如下公式更新网络参数:
Figure FDA0002590527030000041
Figure FDA0002590527030000042
Actor网络采用如下公式更新网络参数:
Figure FDA0002590527030000043
其中,
Figure FDA0002590527030000044
表示Critic网络的目标值,μ和Q分别表示Actor和Critic网络的目标网络,μ′和Q′分别表示Actor和Critic网络的目标网络,θu表示Actor估计网络的参数,
Figure FDA0002590527030000045
表示Aj里面的元素,
Figure FDA0002590527030000046
表示Rj里面的元素,X表示min-batch的大小,γ表示马尔科夫决策过程的折扣因子。
CN202010694439.4A 2020-07-17 2020-07-17 移动边缘网络中基于强化学习的ar任务卸载和资源分配方法 Active CN111918339B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010694439.4A CN111918339B (zh) 2020-07-17 2020-07-17 移动边缘网络中基于强化学习的ar任务卸载和资源分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010694439.4A CN111918339B (zh) 2020-07-17 2020-07-17 移动边缘网络中基于强化学习的ar任务卸载和资源分配方法

Publications (2)

Publication Number Publication Date
CN111918339A true CN111918339A (zh) 2020-11-10
CN111918339B CN111918339B (zh) 2022-08-05

Family

ID=73281133

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010694439.4A Active CN111918339B (zh) 2020-07-17 2020-07-17 移动边缘网络中基于强化学习的ar任务卸载和资源分配方法

Country Status (1)

Country Link
CN (1) CN111918339B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113115451A (zh) * 2021-02-23 2021-07-13 北京邮电大学 基于多智能体深度强化学习的干扰管理和资源分配方案
CN113141634A (zh) * 2021-03-11 2021-07-20 重庆邮电大学 基于移动边缘计算网络的vr内容缓存方法
CN113346944A (zh) * 2021-06-28 2021-09-03 上海交通大学 空天地一体化网络中时延最小化计算任务卸载方法及系统
CN113543342A (zh) * 2021-07-05 2021-10-22 南京信息工程大学滨江学院 基于noma-mec强化学习资源分配与任务卸载方法
CN113726858A (zh) * 2021-08-12 2021-11-30 西安交通大学 一种基于强化学习的自适应ar任务卸载和资源分配方法
CN113873022A (zh) * 2021-09-23 2021-12-31 中国科学院上海微系统与信息技术研究所 一种可划分任务的移动边缘网络智能资源分配方法
CN113950066A (zh) * 2021-09-10 2022-01-18 西安电子科技大学 移动边缘环境下单服务器部分计算卸载方法、系统、设备
CN114116156A (zh) * 2021-10-18 2022-03-01 武汉理工大学 一种云边协同的双利益均衡禁忌强化学习资源分配方法
CN114170560A (zh) * 2022-02-08 2022-03-11 深圳大学 一种基于深度强化学习的多设备边缘视频分析系统
CN114490057A (zh) * 2022-01-24 2022-05-13 电子科技大学 一种基于深度强化学习的mec已卸载任务资源分配方法
CN115118780A (zh) * 2022-06-06 2022-09-27 支付宝(杭州)信息技术有限公司 获取资源分配模型的方法、资源分配方法及对应装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018101008A1 (ja) * 2016-11-30 2018-06-07 横河電機株式会社 情報処理装置、リソース割り当てシステム、およびリソース割り当て方法
CN109302709A (zh) * 2018-09-14 2019-02-01 重庆邮电大学 面向移动边缘计算的车联网任务卸载与资源分配策略
CN109756378A (zh) * 2019-01-12 2019-05-14 大连理工大学 一种车载网络下的智能计算卸载方法
CN110312231A (zh) * 2019-06-28 2019-10-08 重庆邮电大学 一种车联网中基于移动边缘计算的内容缓存决策和资源分配联合优化方法
CN110418416A (zh) * 2019-07-26 2019-11-05 东南大学 移动边缘计算系统中基于多智能体强化学习的资源分配方法
CN110798849A (zh) * 2019-10-10 2020-02-14 西北工业大学 一种超密网边缘计算的计算资源分配与任务卸载方法
CN110941675A (zh) * 2019-11-26 2020-03-31 西安交通大学 一种基于深度学习的无线供能边缘计算延迟优化方法
EP3629165A1 (en) * 2018-09-27 2020-04-01 INTEL Corporation Accelerated resource allocation techniques
CN110971706A (zh) * 2019-12-17 2020-04-07 大连理工大学 Mec中近似最优化与基于强化学习的任务卸载方法
CN111405569A (zh) * 2020-03-19 2020-07-10 三峡大学 基于深度强化学习的计算卸载和资源分配方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018101008A1 (ja) * 2016-11-30 2018-06-07 横河電機株式会社 情報処理装置、リソース割り当てシステム、およびリソース割り当て方法
CN109302709A (zh) * 2018-09-14 2019-02-01 重庆邮电大学 面向移动边缘计算的车联网任务卸载与资源分配策略
EP3629165A1 (en) * 2018-09-27 2020-04-01 INTEL Corporation Accelerated resource allocation techniques
CN109756378A (zh) * 2019-01-12 2019-05-14 大连理工大学 一种车载网络下的智能计算卸载方法
CN110312231A (zh) * 2019-06-28 2019-10-08 重庆邮电大学 一种车联网中基于移动边缘计算的内容缓存决策和资源分配联合优化方法
CN110418416A (zh) * 2019-07-26 2019-11-05 东南大学 移动边缘计算系统中基于多智能体强化学习的资源分配方法
CN110798849A (zh) * 2019-10-10 2020-02-14 西北工业大学 一种超密网边缘计算的计算资源分配与任务卸载方法
CN110941675A (zh) * 2019-11-26 2020-03-31 西安交通大学 一种基于深度学习的无线供能边缘计算延迟优化方法
CN110971706A (zh) * 2019-12-17 2020-04-07 大连理工大学 Mec中近似最优化与基于强化学习的任务卸载方法
CN111405569A (zh) * 2020-03-19 2020-07-10 三峡大学 基于深度强化学习的计算卸载和资源分配方法及装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CHENMENG WANG: "Computation Offloading and Resource Allocation in Wireless Cellular Networks With Mobile Edge Computing", 《IEEE TRANSACTIONS ON WIRELESS COMMUNICATIONS》 *
JING ZHANG: "Joint Computation Offloading and Resource Allocation Optimization in Heterogeneous Networks With Mobile Edge Computing", 《 IEEE ACCESS 》 *
卢海峰等: "基于深度强化学习的移动边缘计算任务卸载研究", 《计算机研究与发展》 *
李波: "基于马尔科夫决策过程的车载边缘计算切换策略", 《计算机工程与科学》 *
王文文: "基于深度强化学习的边缘服务动态部署策略研究", 《中国优秀硕士论文电子期刊网》 *
谢人超: "移动边缘计算卸载技术综述", 《通信学报》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113115451A (zh) * 2021-02-23 2021-07-13 北京邮电大学 基于多智能体深度强化学习的干扰管理和资源分配方案
CN113141634B (zh) * 2021-03-11 2022-05-03 重庆邮电大学 基于移动边缘计算网络的vr内容缓存方法
CN113141634A (zh) * 2021-03-11 2021-07-20 重庆邮电大学 基于移动边缘计算网络的vr内容缓存方法
CN113346944A (zh) * 2021-06-28 2021-09-03 上海交通大学 空天地一体化网络中时延最小化计算任务卸载方法及系统
CN113346944B (zh) * 2021-06-28 2022-06-10 上海交通大学 空天地一体化网络中时延最小化计算任务卸载方法及系统
CN113543342A (zh) * 2021-07-05 2021-10-22 南京信息工程大学滨江学院 基于noma-mec强化学习资源分配与任务卸载方法
CN113543342B (zh) * 2021-07-05 2024-03-29 南京信息工程大学滨江学院 基于noma-mec强化学习资源分配与任务卸载方法
CN113726858B (zh) * 2021-08-12 2022-08-16 西安交通大学 一种基于强化学习的自适应ar任务卸载和资源分配方法
CN113726858A (zh) * 2021-08-12 2021-11-30 西安交通大学 一种基于强化学习的自适应ar任务卸载和资源分配方法
CN113950066A (zh) * 2021-09-10 2022-01-18 西安电子科技大学 移动边缘环境下单服务器部分计算卸载方法、系统、设备
CN113950066B (zh) * 2021-09-10 2023-01-17 西安电子科技大学 移动边缘环境下单服务器部分计算卸载方法、系统、设备
CN113873022A (zh) * 2021-09-23 2021-12-31 中国科学院上海微系统与信息技术研究所 一种可划分任务的移动边缘网络智能资源分配方法
CN114116156A (zh) * 2021-10-18 2022-03-01 武汉理工大学 一种云边协同的双利益均衡禁忌强化学习资源分配方法
CN114490057A (zh) * 2022-01-24 2022-05-13 电子科技大学 一种基于深度强化学习的mec已卸载任务资源分配方法
CN114490057B (zh) * 2022-01-24 2023-04-25 电子科技大学 一种基于深度强化学习的mec已卸载任务资源分配方法
CN114170560A (zh) * 2022-02-08 2022-03-11 深圳大学 一种基于深度强化学习的多设备边缘视频分析系统
CN115118780A (zh) * 2022-06-06 2022-09-27 支付宝(杭州)信息技术有限公司 获取资源分配模型的方法、资源分配方法及对应装置
CN115118780B (zh) * 2022-06-06 2023-12-01 支付宝(杭州)信息技术有限公司 获取资源分配模型的方法、资源分配方法及对应装置

Also Published As

Publication number Publication date
CN111918339B (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
CN111918339B (zh) 移动边缘网络中基于强化学习的ar任务卸载和资源分配方法
CN113950066B (zh) 移动边缘环境下单服务器部分计算卸载方法、系统、设备
CN111240701B (zh) 一种端-边-云协同计算的任务卸载优化方法
Chen et al. Energy-efficient task offloading and resource allocation via deep reinforcement learning for augmented reality in mobile edge networks
CN113242568A (zh) 一种不确定网络环境中的任务卸载和资源分配方法
CN111475274B (zh) 云协同多任务调度方法及装置
CN111031102A (zh) 一种多用户、多任务的移动边缘计算系统中可缓存的任务迁移方法
CN109756578B (zh) 一种面向动态雾计算网络的低时延任务调度方法
CN114285853B (zh) 设备密集型工业物联网中基于端边云协同的任务卸载方法
CN113286329B (zh) 基于移动边缘计算的通信和计算资源联合优化方法
CN110955463A (zh) 支持边缘计算的物联网多用户计算卸载方法
CN114885420A (zh) 一种noma-mec系统中的用户分组和资源分配方法及装置
CN112000481A (zh) 一种d2d-mec系统计算能力最大化的任务卸载方法
CN114205353B (zh) 一种基于混合动作空间强化学习算法的计算卸载方法
CN114567895A (zh) 一种mec服务器集群的智能协同策略的实现方法
CN109246761A (zh) 考虑延迟及能耗的基于交替方向乘子法的卸载方法
CN113590279B (zh) 一种面向多核边缘计算服务器的任务调度和资源分配方法
CN115297171B (zh) 一种蜂窝车联网分级决策的边缘计算卸载方法及系统
Sun et al. Edge learning with timeliness constraints: Challenges and solutions
CN116489708B (zh) 面向元宇宙的云边端协同的移动边缘计算任务卸载方法
Zhang et al. Effect: Energy-efficient fog computing framework for real-time video processing
CN115802389A (zh) 一种利用数字孪生辅助模型训练的联邦学习方法
Chen et al. Joint optimization of task offloading and resource allocation via deep reinforcement learning for augmented reality in mobile edge network
CN113821346B (zh) 基于深度强化学习的边缘计算中计算卸载与资源管理方法
CN113747507B (zh) 一种面向5g超密集网络的计算资源管理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant