CN108632862B

CN108632862B - 基于深度确定性策略梯度的移动边缘计算分流决策方法

Info

Publication number: CN108632862B
Application number: CN201810343313.5A
Authority: CN
Inventors: 黄亮; 冯旭; 钱丽萍; 吴远
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-04-17
Filing date: 2018-04-17
Publication date: 2021-06-18
Anticipated expiration: 2038-04-17
Also published as: CN108632862A

Abstract

一种基于深度确定性策略梯度方法的移动边缘计算分流决策方法，包括以下步骤：1)计算出在给出分流决策下系统中所有的能量损耗；2)通过深度确定性策略方法来寻找一个最优的分流决策x_nm，所有用户的分流决策x_nm都被编进执行单元所需的状态x_t；3)所有无线设备的分流决策x_nm作为深度确定性策略方法的状态x_t，动作a则是对状态x_t的更改，更改后系统的总能量损耗会与一个设定的标准值进行比较，如果比这个标准值大则使当前奖励r(x_t，a)设为正值，反之设为负值，同时系统进入下一状态x_t+1，不断重复这个迭代过程直到得到最佳分流决策x_nm。本发明在保证用户体验的前提下最小化能量损耗。

Description

基于深度确定性策略梯度的移动边缘计算分流决策方法

技术领域

本发明属于通信领域，尤其是涉及移动边缘计算的通信系统以及基于深度确定性策略梯度方法的移动边缘计算分流决策方法。

背景技术

随着无线通信技术的广泛发展，无线通信技术已经渗入到人类生活的方方面面。移动边缘计算拓展了移动设备的能力，在丰富的云资源的帮助下，用户体验得到极大提升。在一个多用户的移动通信系统中，所有用户共同占用传输资源。用户将自身的任务分流至基站或者云端时，可以减少自己的能量损耗，但这些被分流的任务的服务质量会受一些额外损耗的影响，比如传输延时。为了最小化所有的能量损耗，保证服务质量，最优的任务分流决策方法应用是很有必要的。

发明内容

为了克服现有移动通信网络的能量损耗较大的不足，为了最小化系统中所有的能量损耗，保证服务质量，本发明提供了一种适用于移动边缘计算的基于深度确定性策略梯度方法的分流决策方法，在保证用户体验的前提下最小化能量损耗。

本发明解决其技术问题所采取的技术方案是：

一种基于深度确定性策略梯度方法的移动边缘计算分流决策方法，所述方法，包括以下步骤：

1)在一个由多个用户组成，并且每个用户都有多个独立的任务的移动通信系统中，x_nm为用户n的任务m的分流决策，如果x_nm为1则表示用户n的任务m将被分流至基站或云端处理，x_nm为0则表示在本地处理；当用户n的任务m被分流时，其上行传输速率

和下行传输速率

受传输总带宽C_U和C_D的限制；当用户n的任务m在本地处理时，本地移动设备所产生的能量损耗为

如果在云端处理时，所产生的能量损耗为

系统总损耗最小化表示为：

约束条件为：

式中：

其中，各参数定义如下：

N：用户人数；

M：每个用户的任务数；

x_nm：用户n的任务m的分流决策，为1时表示在云端处理，为0时在本地处理；

用户n的任务m在本地处理时的能量损耗；

用户n的任务m被分流时，传输过程中能量损耗；

用户n的任务m在云端处理时的能量损耗；

ρ：在云端处理时，能量损耗的转化权重；

ω_n：用户n延时损耗的转化权重；

用户n的任务m在本地处理时的延时损耗；

用户n的任务在云端处理时的总延时损耗；

2)为了保证服务质量，当任务在云端处理时，数据从本地上传到云端所消耗的时间以及处理时间都将被考虑在内，每个用户n的任务由发送数据DO_nm和接收数据DI_nm组成，当任务分流至云端时，期间所消耗的时间与本地和基站间的传输速率R_AC相关；在云端处理时，时间消耗由发送数据大小和云端处理速度f_C决定；由于数据传输和处理时间会有重叠，而重叠部分难以估算，所以总的时间损耗考虑为所有时间消耗的总和

式中：

其中，各参数定义如下：

DI_nm：用户n的任务m的接收数据大小；

DO_nm：用户n的任务m的发送数据大小；

用户n的上传速度；

用户n的下行速度；

R_AC：基站与云端的传输速率；

AT_nm：每处理单位的数据需要的处理循环次数；

f_C：云端处理器的处理速度；

3)通过深度确定性策略梯度方法来寻找一个最优的分流决策，即所有用户的分流决策x_nm，该深度确定性策略梯度方法由执行单元，评分单元和环境所组成，所有用户的分流决策x_nm都被编进了执行单元所需的状态x_t，执行单元在当前状态下采取动作a对分流决策x_nm进行更改并进入下一个状态x_t+1，同时得到环境返回的奖励r(x_t,a)，评分单元结合状态x_t，动作a以及环境返回的奖励r(x_t,a)给执行单元打分，即表明执行单元在状态x_t下采取动作a是好是坏；执行单元的目标就是让评分单元所打的分越高越好，而评分单元的目标是让自己每次打出的分都接近真实，这可以通过奖励r(x_t,a)来调节；在执行单元，评分单元和环境不断交互更新下，分流决策x_nm将不断被优化直到被更新到最优，评分单元的更新方式为：

S(x_t,a)＝r(x_t,a)+γS′(x_t+1,a′) (3)

其中，各参数定义如下：

x_t：在时刻t，系统所处状态；

x_t+1：在时刻t+1，系统所处状态；

a：在当前状态执行单元所采取的动作；

a′：在下一状态执行单元所采取的动作；

S(x_t,a)：执行单元中的评估网络在状态x_t下采取动作a所得到的分值；

S′(x_t+1,a′)：执行单元中的目标网络在状态x_t+1下采取动作a′所得到的分值；

r(x_t,a)：在状态x_t下采取动作a所得到的奖励；

γ：奖励衰减比重；

4)所有用户的分流决策x_nm作为深度确定性策略梯度方法的状态x_t，动作a则是对状态x_t的更改，更改后系统的总损耗会与一个设定的标准值进行比较，如果比这个标准值大则使当前奖励r(x_t,a)设为正值，反之设为负值，同时系统进入下一状态x_t+1。

进一步，所述步骤4)中，深度确定性策略梯度方法的迭代过程为：

步骤4.1：初始化深度确定性策略梯度方法中的执行单元，评分单元和记忆库。当前系统状态为x_t，t初始化为1，迭代次数k初始化为1；

步骤4.2：当k小于或等于给定迭代次数K时，在状态x_t下，执行单元预测出一个动作a；

步骤4.3：动作a对状态x_t进行更改，使其变成下一状态x_t+1并得到环境所反馈的奖励r(x_t,a)；

步骤4.4：按照格式(x_t,a,r(x_t,a),x_t+1)把历史经验保存在记忆库中；

步骤4.5：评分单元接收动作a，状态x_t和奖励r(x_t,a)，给执行单元打出分数S(x_t,a)；

步骤4.6：执行单元通过更新自身参数不断去最大化分数S(x_t,a)，尽可能地让自己在下次能做出高分动作；

步骤4.7：评分单元抽取记忆库中的历史经验，不断学习，更新参数使得自己所打的分尽可能准确，同时k＝k+1，回到步骤5.2；

步骤4.8：当k大于给定迭代次数K时，学习过程结束，得到最佳分流决策x_nm。

本发明的技术构思为：首先，在一个多用户的移动通信系统中，所有用户共同占用传输资源。用户将自身的任务分流至基站或者云端时，可以减少自己的能量损耗，但这些被分流的任务的服务质量会受一些额外损耗的影响，比如传输延时。如果用户的所有任务都在云端处理那么云端的能量损耗和传输损耗将直线上升，如果全部在本地处理，又会消耗用户很多的能量和时间。为了最小化整体的能量损耗，保证服务质量，提出了一种能找到最优的任务分流决策的方法。

本发明的有益效果主要表现在：通过深度确定性策略梯度方法寻找出最优的分流决策方法，在保证用户体验的前提下最小化能量损耗，保证服务质量。

附图说明

图1是系统模型示意图。

图2是找到最优的分流决策的方法流程图。

具体实施方式

下面结合附图对本发明作进一步详细描述。

参照图1和图2，一种基于深度确定性策略梯度方法的移动边缘计算分流决策方法，实行该方法能最小化整体的能量损耗，保证服务质量。本发明基于多用户的系统模型(如图1所示)，提出了一个分流决策方法来决定哪些用户的哪些任务会被分流至云端，同时如果任务被选择分流，那它的上下行速率也会得到优化以达到最小的能量损耗。所述分流决策方法包括有以下步骤(如图2所示)：

和下行传输速率

如果在云端处理时，所产生的能量损耗为

系统总损耗最小化表示为：

约束条件为：

式中：

其中，各参数定义如下：

N：用户人数；

M：每个用户的任务数；

用户n的任务m在本地处理时的能量损耗；

用户n的任务m被分流时，传输过程中能量损耗；

用户n的任务m在云端处理时的能量损耗；

ρ：在云端处理时，能量损耗的转化权重；

ω_n：用户n延时损耗的转化权重；

用户n的任务m在本地处理时的延时损耗；

用户n的任务在云端处理时的总延时损耗；

2)为了保证服务质量，当任务在云端处理时，数据从本地上传到云端所消耗的时间以及处理时间都将被考虑在内，每个用户n的任务由发送数据DO_nm和接收数据DI_nm组成，当任务分流至云端时，期间所消耗的时间与本地和基站间的传输速率R_AC相关。在云端处理时，时间消耗由发送数据大小和云端处理速度f_C决定。由于数据传输和处理时间会有重叠，而重叠部分难以估算，所以总的时间损耗考虑为所有时间消耗的总和

式中：

其中，各参数定义如下：

DI_nm：用户n的任务m的接收数据大小；

DO_nm：用户n的任务m的发送数据大小；

用户n的上传速度；

用户n的下行速度；

R_AC：基站与云端的传输速率；

AT_nm：每处理单位的数据需要的处理循环次数；

f_C：云端处理器的处理速度；

3)通过深度确定性策略梯度方法来寻找一个最优的分流决策，即所有用户的分流决策x_nm。该深度确定性策略梯度方法由执行单元，评分单元和环境所组成。所有用户的分流决策

和

都被编进了执行单元所需的状态x_t，执行单元在当前状态下采取动作a对分流决策

和

进行更改并进入下一个状态x_t+1，同时得到环境返回的奖励r(x_t,a)；评分单元结合状态x_t，动作a以及环境返回的奖励r(x_t,a)给执行单元打分，即表明执行单元在状态x_t下采取动作a是好是坏；执行单元的目标就是让评分单元所打的分越高越好，而评分单元的目标是让自己每次打出的分都接近真实，这可以通过奖励r(x_t,a)来调节；在执行单元，评分单元和环境不断交互更新下，分流决策x_nm将不断被优化直到被更新到最优，评分单元的更新方式为：

S(x_t,a)＝r(x_t,a)+γS′(x_t+1,a′) (3)

其中，各参数定义如下：

x_t：在时刻t，系统所处状态；

x_t+1：在时刻t+1，系统所处状态；

a：在当前状态执行单元所采取的动作；

a′：在下一状态执行单元所采取的动作；

r(x_t,a)：在状态x_t下采取动作a所得到的奖励；

γ：奖励衰减比重；

Claims

1.一种基于深度确定性策略梯度的移动边缘计算分流决策方法，其特征在于，所述方法包括以下步骤：

和下行传输速率

如果在云端处理时，所产生的能量损耗为

系统总损耗最小化表示为：

约束条件为：

式中：

其中，各参数定义如下：

N：用户人数；

M：每个用户的任务数；

用户n的任务m在本地处理时的能量损耗；

用户n的任务m被分流时，传输过程中能量损耗；

用户n的任务m在云端处理时的能量损耗；

ρ：在云端处理时，能量损耗的转化权重；

ω_n：用户n延时损耗的转化权重；

用户n的任务m在本地处理时的延时损耗；

用户n的任务在云端处理时的总延时损耗；

式中：

其中，各参数定义如下：

DI_nm：用户n的任务m的接收数据大小；

DO_nm：用户n的任务m的发送数据大小；

用户n的上传速度；

用户n的下行速度；

R_AC：基站与云端的传输速率；

AT_nm：每处理单位的数据需要的处理循环次数；

f_C：云端处理器的处理速度；

3)通过深度确定性策略梯度方法来寻找一个最优的分流决策，即所有用户的分流决策x_nm，该深度确定性策略梯度方法由执行单元，评分单元和环境所组成，所有用户的分流决策x_nm都被编进了执行单元所需的状态x_t，执行单元在当前状态下采取动作a对分流决策x_nm进行更改并进入下一个状态x_t+1，同时得到环境返回的奖励r(x_t，a)，评分单元结合状态x_t，动作a以及环境返回的奖励r(x_t，a)给执行单元打分，即表明执行单元在状态x_t下采取动作a是好是坏，执行单元的目标就是让评分单元所打的分越高越好，而评分单元的目标是让自己每次打出的分都接近真实，这可以通过奖励r(x_t，a)来调节；在执行单元，评分单元和环境不断交互更新下，分流决策x_nm将不断被优化直到被更新到最优，评分单元的更新方式为：

S(x_t，a)＝r(x_t，a)+γS′(x_t+1，a′) (3)

其中，各参数定义如下：

x_t：在时刻t，系统所处状态；

x_t+1：在时刻t+1，系统所处状态；

a：在当前状态执行单元所采取的动作；

a′：在下一状态执行单元所采取的动作；

S(x_t，a)：执行单元中的评估网络在状态x_t下采取动作a所得到的分值；

S′(x_t+1，a′)：执行单元中的目标网络在状态x_t+1下采取动作a′所得到的分值；

r(x_t，a)：在状态x_t下采取动作a所得到的奖励；

γ：奖励衰减比重；

4)所有用户的分流决策x_nm作为深度确定性策略梯度方法的状态x_t，动作a则是对状态x_t的更改，更改后系统的总损耗会与一个设定的标准值进行比较，如果比这个标准值大则使当前奖励r(x_t，a)设为正值，反之设为负值，同时系统进入下一状态x_t+1。

2.如权利要求1所述的基于深度确定性策略梯度的移动边缘计算分流决策方法，其特征在于，所述步骤4)中，深度确定性策略梯度方法的迭代过程为：

步骤4.1：初始化深度确定性策略梯度方法中的执行单元，评分单元和记忆库，当前系统状态为x_t，t初始化为1，迭代次数k初始化为1；

步骤4.3：动作a对状态x_t进行更改，使其变成下一状态x_t+1并得到环境所反馈的奖励r(x_t，a)；

步骤4.4：按照格式(x_t，a，r(x_t，a)，x_t+1)把历史经验保存在记忆库中；

步骤4.5：评分单元接收动作a，状态x_t和奖励r(x_t，a)，给执行单元打出分数S(x_t，a)；

步骤4.6：执行单元通过更新自身参数不断去最大化分数S(x_t，a)，尽可能地让自己在下次能做出高分动作；