CN111918339A

CN111918339A - 移动边缘网络中基于强化学习的ar任务卸载和资源分配方法

Info

Publication number: CN111918339A
Application number: CN202010694439.4A
Authority: CN
Inventors: 刘贵忠; 陈兴; 方胶胶
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2020-11-10
Anticipated expiration: 2040-07-17
Also published as: CN111918339B

Abstract

本发明公开了一种移动边缘网络中基于强化学习的AR任务卸载和资源分配方法，包括以下步骤：建立AR应用模型和设定优化目标；设定强化学习网络框架和马尔科夫决策过程的状态、动作和奖励；产生数据并存储到经验回访池中，直到达到一定的数量后开始训练；训练Critic和Actor网络直到网络收敛；网络训练好之后，只需要将状态值输入到Actor网络中就可以得到资源分配和任务卸载方案。本发明为了更加合理地利用资源，将AR应用分割成子任务并考虑了子任务之间的依赖关系，在资源受限和保证时延要求的条件下，可以智能高效的减少每一个用户终端的能量消耗。

Description

移动边缘网络中基于强化学习的AR任务卸载和资源分配方法

【技术领域】

本发明属于无线通信技术领域，涉及一种移动边缘网络中基于强化学习的AR任务卸载和资源分配方法。

【背景技术】

随着第五代通信技术的快速发展，大量的新型视频应用不断涌现，如增强现实和虚拟现实等。这些新型视频应用以其强大的浸入式感官体验获得了广大消费者的青睐，但是这类应用具有低时延和大计算量需求，对目前的通信系统造成了巨大的挑战。在中心云系统中，大计算量的任务被卸载到远端中心云进行处理，这种方法会造成回程网络负载过大，任务时延较高的问题。移动边缘计算(MEC)作为5G的主要技术之一，为解决这些问题提供了很好的思路。

MEC被部署在靠近用户的核心网边缘，这样就可以将大计算量的任务卸载到MEC服务器执行，减少了卸载到中心云所产生的较大传输时延，提高用户体验。但是针对具体的视频应用，还有许多挑战需要被克服。例如：在网络状态波动和资源有限的情况下，如何合理的分配资源和卸载任务是提高用户体验的一个关键因素。因此，在移动边缘网络中针对AR应用的任务卸载和资源分配方法的研究对提高用户体验质量起着决定性的作用。

【发明内容】

本发明的目的在于克服上述现有技术的缺点，提供一种移动边缘网络中基于强化学习的AR任务卸载和资源分配方法，用于解决在网络状态波动和有限的资源情况下，合理的分配资源和卸载任务的技术问题。

为达到上述目的，本发明采用以下技术方案予以实现：

移动边缘网络中基于强化学习的AR任务卸载和资源分配方法，包括以下步骤：

步骤1，将网络中每一个用户的AR任务分为五个子任务，建立五个子任务的有向无环图；所述有向无环图表示五个子任务的依赖关系；

步骤2，针对网络中的所有AR任务建立任务卸载和资源分配联合优化模型；

步骤3，将联合优化模型转化为马尔科夫决策过程，设定马尔科夫决策过程中初始的状态S、动作A和奖励R，通过MADDPG算法训练学习网络，训练目标为最小化每一个用户终端设备的能量消耗，训练结果为AR的任务卸载和资源分配方法；所述分配方法包括MEC服务器计算资源的分配、用户终端计算资源的分配，以及网络中上行和下行通信资源的分配。

本发明的进一步改进在于：

优选的，所述五个子任务为视频源、渲染器、追踪器、映射器和目标识别；所述视频源和渲染器的执行位置为用户终端。

优选的，所述有向无环图为：

其中，

和

分别表示

中点v和边l的集合，

和

分别表示在MEC和在用户终端执行任务的点集合，

和

分别表示上行链路、下行链路和hold的边集合。

优选的，步骤2中，所述联合优化模型为：

其中，：

和

分别表示分配给用户u第l个子任务的上行和下行传输资源；

和

表示基站分配给用户u的上行和下行传输资源；

表示MEC服务器分配给用户u第l个子任务的计算资源；

表示本地用户终端分配给用户u第l个子任务的计算资源；g_u表示有向图中完成一个AR任务的一条路径，t_gu和e_gu分别表示用于u执行AR一个任务的总时延和总能耗；F^MEC表示MEC服务器的总计算资源；

表示本地用户终端的总计算资源。

优选的，步骤3中，所述状态S包括当前所有用户采集的视频帧大小、MEC计算资源大小，当前时刻网络的上下行传输资源，初始计算资源和通信资源的分配方案；

动作A为对初始资源分配方案的改变量；

奖励R包括任务完成奖励、体验质量奖励和能量消耗奖励。

优选的，所述任务完成奖励为：

其中，ε()表示阶跃函数，s_u,q表示状态S的第q维数据，χ₁,χ₂,χ₃,χ₄,χ₅,χ₆,χ₇,b₁,b₂和b₃为常数。

优选的，所述体验质量奖励为：

优选的，所述能量消耗奖励为：

优选的，步骤3中，学习网络框架中的经验回访池中的数据达到目标数量，开始训练网络；所述经验回访池中放置有episode的状态S；将旧的状态S输入至Actor网络中输出动作A，产生新的网络参数状态S′和奖励R。

优选的，步骤3中，训练网络过程中，每次从经验回放池中抽取一个min-batch的数据(S^j,A^j,S′^j,R^j)，Critic网络采用如下公式更新网络参数：

Actor网络采用如下公式更新网络参数：

其中，

表示Critic网络的目标值，μ和Q分别表示Actor和Critic网络的目标网络，μ′和Q′分别表示Actor和Critic网络的目标网络，θ_u表示Actor估计网络的参数，

表示A^j里面的元素，

表示R^j里面的元素，X表示min-batch的大小，γ表示马尔科夫决策过程的折扣因子。

与现有技术相比，本发明具有以下有益效果：

本发明公开了一种移动边缘网络中基于强化学习的AR任务卸载和资源分配方法，该方法将AR任务分解为5个子任务，根据子任务之间的执行依赖关系建立有向无环图；根据用户数目和系统参数(MEC大小，基站带宽等)构建强化学习网络模型，通过将问题转化成马尔科夫决策过程后，利用MADDPG算法训练网络，产生在该状态下的网络资源的分配方案，当网络状态发生变化时，重新输入状态到网络中得到新的资源分配和卸载方案。本发明能够适应快速变化的网络环境，联合优化任务卸载和资源分配问题，在资源有限和保证用户体验的情况下，可以智能高效的减少用户终端的能耗。

进一步的，根据马尔科夫决策过程训练网络过程确定状态S、动作A和奖励R；接着将每一个episode的状态S输入到Actor网络中输出动作A，产生新的状态S′和奖励R；以(S,A,R,S′)形式将数据存储到经验回访池中；当经验池的数据达到一定的数量，每一次从经验回放池中抽样一个min-batch的数据去训练网络参数，这样不断更新网络直到收敛；训练完成之后，在具体的应用过程中，当用户请求AR应用时，将当前状态S输入到Actor网络中就会得到具体的资源分配和任务卸载方案。

【附图说明】

图1为本发明的流程示意图；

图2为AR任务模块图；

图3为AR应用执行过程的有向无环图；

图4为MADDPG网络框架；

图5为三种算法针对每一个用户的奖励对比图；

图6为三种算法针对每一个用户的能量消耗对比图；

图7为三种算法在每一个episode的平均能量消耗对比图。

【具体实施方式】

下面结合附图对本发明做进一步详细描述：

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制；术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性；此外，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

假设一个MEC服务器同时服务多个基站，一个基站服务多个用户的场景，基站的集合表示为：n∈{1,2,…N}，用户的集合表示为：u∈{1,2,…,U}。为了合理地利用资源，一个AR应用被划分为5个子任务k∈{1,2,3,4,5}，包括：视频源、追踪器、映射器、目标识别和渲染器。如果2所示，视频源和渲染器这两个子任务必须被执行在本地用户终端上，其他的子任务可以被执行在本地用户终端也可以被执行在MEC服务器上。每一个任务的参数可以被

定义，

分别表示第k个子任务的数据大小和计算负载，两者的关系可以被表示为

表示处理一个bit的数据需要的计算负载，每一个用户请求的AR任务的时延限制被表示为T_u。根据以上系统场景和优化目标，将AR应用执行过程建模成一个有向无环图

其中，

和

分别表示

中点v和边l的集合，

和

分别表示在MEC和在用户终端执行任务的点集合，

和

分别表示上行链路、下行链路和hold的边集合，hold表示在前一个子任务和后一个子任务都在同一个地方(MEC和用户终端)执行任务。g_u被定义为有向图中能够完成一个AR任务的一条路径，由点集合

和

组成。

表示路径g_u中在用户终端执行的点，

表示路径g_u中在MEC服务器执行的点。

本发明以最小化每一个用户终端的能耗为目标，在资源受限和保证时延要求的条件下，对应的任务卸载和资源分配联合优化问题为：

参见图1，本发明所述的移动边缘网络中基于强化学习的AR任务卸载和资源分配方法包括以下步骤：

步骤1，对AR应用进行建模，将一个AR任务分成5个子任务，并且5个子任务之间具有一定的依赖关系，执行任务过程中，5个任务被依次有序的执行；在受限于资源和保证时延要求的条件下，设定优化目标为尽可能最小化每一个用户终端的能量消耗；

参见图2和图3，将AR任务分成5个子任务(视频源、追踪器、映射器、目标识别和渲染器)，其中视频源和渲染器必须被执行本地用户设备，其他的子任务可以被执行在用户终端，也可以被执行在MEC服务器。将一个AR子任务的执行过程建模成一个有向无环图：

如图2所示。其中，

和

分别表示

中点v和边l的集合，

和

分别表示在MEC和在用户终端执行任务的点集合，

和

和

组成。

表示路径g_u中在用户终端执行的点，

表示路径g_u中在MEC服务器执行的点。因此，用户u执行AR任务的总时延和总能耗被表示为：

其中，s和c表示一个边的起点和终点，

和

表示从点s到c的传输时间，t_u,v和e_u,v表示在点v的任务执行时间。

步骤2，设定优化目标，在资源受限和满足时延要求的前提下，尽可能最小化每一个用户终端设备的能量消耗；

尽可能最小化每一个用户终端的能耗为目标，构建任务卸载和资源分配联合优化模型：

其中，

和

分别表示分配给用户u第l个子任务的上行和下行传输资源；系统采用OFDMA传输技术，将系统总带宽按照用户个数均分为U个子带，

和

表示基站分配给用户u的上行和下行传输资源；

表示MEC服务器分配给用户u第l个子任务的计算资源；

表示本地用户终端的总计算资源。

c1表示为了保证服务质量，AR应用的执行时延不超过一定的界限；c2表示AR应用有向无环图中所有上行链路传输资源不超过该用户的上行传输资源；c3表示AR应用有向无环图中所有下行链路传输资源不超过该用户的下行传输资源；c4表示MEC分配给所有用户的计算资源不超过MEC总计算资源；c5表示用户终端分配给五个子任务的计算资源不超过用户终端总计算能力。

步骤3，根据用户个数设置强化学习网络框架MADDPG(多智能体深度确定性策略梯度)，具体的为根据用户数目选定MADDPG的智能体数目，根据基站带宽和MEC计算能力大小设置马尔科夫决策过程的状态S，动作A和奖励R；

状态S由当前所有用户采集的视频帧大小、MEC计算资源大小，当前时刻网络的上下行传输资源，初始计算资源和通信资源的分配方案组成。

动作A由对初始资源分配方案的改变量大小组成。

奖励R由三个阶段的奖励组成：

3.1)任务完成奖励

任务完成奖励等式右边第一项表示分配的计算资源必须都大于0，第二、三、四和五项表示分配的计算资源和通信资源不能超过资源总量。

3.2)体验质量奖励

体验质量奖励表示AR应用的执行时延必须限制在一定的界限内，保证服务质量。

3.3)能量消耗奖励

能量消耗奖励表示AR应用执行所消耗的用户终端能量越小，奖励越大。

上式中，ε()表示阶跃函数，s_u,q表示状态S的第q维数据，χ₁，χ₂，χ₃，χ₄，χ₅，χ₆，χ₇，b₁，b₂，b₃为常数，目的是为使得奖励变成连续的数据量。

步骤4，在训练网络之前，按照(S,A,R,S′)形式存储一定数量的数据到经验回放池Φ中，数量值根据多次试验结果而确定；

步骤5：当经验回放池中的数据达到设定的数量后，开始训练网络，否则，继续重复步骤4；

步骤6，训练开始后，每次从经验回放池中抽样一个min-batch的数据进行训练，与此同时，每一个episode中产生的数据(S,A,R,S′)放入到经验回放池中，将经验回放池中最前面的数据从经验回放池中去除，经验回放池维持先进先出的原则，使得经验回放池中的数据为一个不断更新的过程，不断的进行数据训练，直到网络收敛；所述Actor网络和Critic网络属于MADDPG。

步骤6.1)：开始训练网络，从经验回放池中抽取一个min-batch的数据(S^j,A^j,S′^j,R^j)，对应的前面经验回访池中的(S,A,R,S′))，进行训练，Critic网络采用如下公式更新网络参数：

Actor网络采用如下公式更新网络参数：

其中，

表示A^j里面的元素，

步骤7，网络训练好之后，在具体的应用过程中，当用户请求AR任务时，将当前时刻的状态S输入到Actor网络中得到动作A，动作A对状态S中的资源分配方案进行调整得到当前时刻的资源分配和任务卸载方案；

步骤8，当网络状态发生改变时，只需要重新输入新的状态S到MADDPG中的Actor网络可以得到新的资源分配和任务卸载方案。

实施例：

下面参考图1进行详细的说明：

步骤11)：将一个AR应用分成5个子任务，并且5个子任务之间具有一定的依赖关系，如图2所示。在受限于资源和保证时延要求的条件下，设定优化目标为尽可能最小化每一个用户终端的能量消耗；

步骤12)：根据用户数目选定MADDPG的用户数目，设定马尔科夫决策过程的状态、动作和奖励；

动作A由对初始资源分配方案的改变量大小组成。

奖励R由三个阶段的奖励组成：

1)任务完成奖励

2)体验质量奖励

3)能量消耗奖励

步骤13)：将每一个episode中产生的数据(S,A,R,S′)放入到经验回放池中。

步骤14)：当经验回放池中的数据达到一定的数量后，开始训练网络，否则，继续重复步骤13)；

步骤15)：开始训练网络，从经验回放池中抽取一个min-batch的数据进行训练，Critic网络采用如下公式更新网络参数：

Actor网络采用如下公式更新网络参数：

步骤16)：网络训练好之后，就不需要Critic网络，每一次只需要将状态值输入到Actor网络中就可以得到资源分配和任务卸载方案。

参见图4为MADDPG网络框架，从图中可以看出MADDPG框架是将AC(Actor-Critic)和DQN(深度Q网络)相结合起来，具有集中训练，分散执行的特点，主要针对状态和动作空间维度巨大或者连续的情况，能够很好的处理环境动态变化问题，每一个智能体都由Actor和Critic网络构成，每一个Actor和Critic网络都分别由估计网络和目标网络构成，每一个智能体的Critic网络都考虑了其他智能体的动作和状态，从全局的角度做出合理的动作。在网络训练好之后，就不需要Critic网络，只需将状态输入到Actor中即可得出具体的动作。

实施例

仿真参数设置

仿真平台采用DELL PowerEdge(DELL-R940XA,4*GOLD-5117,RTX2080Ti)具体的仿真参数如表1,2所示。对比算法采用贪婪(GREEDY)和本地执行(LOCAL)两种算法，本发明对应的算法表示为PORPOSED算法.

表1参数设置

实验结果和分析

图5和图6展示了三种算法在奖励和能量消耗方面的性能。从图5可以看出本发明的算法在每一个用户的奖励上具有较好的性能。这个原因主要是有两部分组成：1)通信网络的状态是不断变化的；2)各个用户之间是竞争关系，一个用户的产生变化就会影响其他用户。贪婪(GREEDY)算法不能很好的解决变化环境中的问题。本地(LOCAL)算法是指所有的子任务都执行的本地用户设备，因此LOCAL算法的奖励是最小的。在网络的训练过程中，MADDPG框架能够获取其他用户的状态和动作，可以从全局的角度做一个合理的决策。从图6可以看出，本发明提出的算法的能量消耗是最小的。从能量消耗的奖励设置可以看出，在满足时延约束发的条件下，奖励和能量消耗之间是指数关系。因此图5和图6是一一对应的关系。

图7展示了三种算法的鲁棒性。与LOCAL和GREEDY算法比较，明提出算法的平均能耗波动是最小的。LOCAL和GREEDY算法不能很好的解决动态变化的网络环境问题。如果一个用户的网络链路很差，那么这个用户就不需要很多的资源。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。