CN110347495B

CN110347495B - 一种使用深度强化学习进行移动边缘计算的任务迁移方法

Info

Publication number: CN110347495B
Application number: CN201910672308.3A
Authority: CN
Inventors: 张�成; 古博; 马良
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2023-04-28
Anticipated expiration: 2039-07-24
Also published as: CN110347495A

Abstract

本发明公开了一种使用深度强化学习进行移动边缘计算的任务迁移方法，先设定系统模型各参数，再描述强化学习中的决策公式，然后基于公式给出任务迁移算法；通过本方法能够获得高效的任务迁移机制，而高效的任务迁移机制能够提高系统实时性，充分利用计算资源，并减少能耗；本方法同时运用了深度强化学习思想进行任务调度，即决策是否迁移计算任务，尤其使用了马尔可夫决策过程，能够在极短时间内给出较优解，实时性强；本方法适用于用户处在高速运动状态时，解决是否更换使用的服务器基站问题。

Description

一种使用深度强化学习进行移动边缘计算的任务迁移方法

技术领域

本发明涉及云服务器边缘计算的任务调度领域，尤其涉及的是一种使用深度强化学习进行移动边缘计算的任务迁移方法。

背景技术

边缘计算与云计算不同，云计算属于集中式大数据处理系统，而边缘计算定义为在用户附近或数据源头搭建的分布式计算服务平台。当用户处于高速移动状态，所使用的边缘计算平台基站需要不断切换，则涉及到任务迁移技术，其属于分布式计算系统的任务调度问题之一。

而用户在高速移动时，往往存在边缘计算所使用的服务器切换时机不当所导致的长时延、高能耗、信号差等问题。某些现有技术中会尝试解决上述问题，但均只考虑到单一因素，得到的效果往往不够理想：如专利CN 105656999 A（公布日 2016.06.08），一种移动云计算环境中能耗优化的合作任务迁移方法，公开了通过合作任务迁移降低能耗，但其只考虑服务器负载问题。又如专利CN 103957231 A（公布日 2014.07.30），一种云计算平台下的虚拟机分布式任务调度方法，虽然公开了云计算调度，但其没有提及在高速移动时云计算如何调度。

因此，现有技术还有待于改进和发展。

发明内容

本发明的目的在于提供一种使用深度强化学习进行移动边缘计算的任务迁移方法，旨在解决现有技术不能同时解决用户在高速移动时，因边缘计算所使用的服务器切换时机不当所导致的长时延、高能耗、信号差的问题。

本发明的技术方案如下：一种使用深度强化学习进行移动边缘计算的任务迁移方法，其中，具体包括以下步骤：

步骤S1：设定系统模型各参数；

步骤S2：描述强化学习中的决策公式；

步骤S3：基于公式给出任务迁移算法。

所述的使用深度强化学习进行移动边缘计算的任务迁移方法，其中，所述步骤S1包括以下步骤：

步骤S11：定义边缘计算服务基站位置集合为；

步骤S12：定义服务时间片段集合为；

步骤S13：在t时刻，，定义用户连接的服务基站位置为；

步骤S14：定义t时刻距离用户最近的服务基站位置为；

步骤S15：定义式1为两基站的距离。

所述的使用深度强化学习进行移动边缘计算的任务迁移方法，其中，所述步骤S2中，采用马尔可夫决策过程描述强化学习中的决策公式，决策的智能体为装载于用户终端的一种云计算控制装置，该云计算控制装置可决定是否进行任务迁移。

所述的使用深度强化学习进行移动边缘计算的任务迁移方法，其中，所述步骤S2包括以下步骤：

步骤S21：定义t时刻智能体的状态为式2，为用户当前使用基站与考虑任务迁移基站的距离之差；

步骤S22：定义智能体的动作集合为式3，代表不做任务迁移，代表进行任务迁移；

步骤S23：定义t时刻智能体的动作为式4；

步骤S24：定义t时刻服务质量函数为式5；其中意为用户在t时刻获得的服务质量；D代表了当前使用基站正好离用户最近的情况下的服务质量，即；而为一常数，衡量了对服务质量的影响程度；

步骤S25：定义t时刻代价函数为式6，其中，代表了任务迁移时产生的时间能量等消耗，其与距离有关，代价函数代表了智能体不同动作所需付出的代价；

步骤S26：定义t时刻奖励函数式7；

步骤S27：定义t时刻的决策动作为式8，意为状态下智能体做出的动作函数；

步骤S28：定义t时刻决策动作后的状态为；

步骤S29：定义所有时刻的集合为；

步骤S210：定义最佳决策下所有时刻奖励函数的最大值为式9，其中代表折扣因子；

步骤S211：利用时间差分算法使系统探索最优决策，由贝尔曼方程可得迭代公式为式10；

步骤S212：利用Q学习方法可得到最优Q值式11。

所述的使用深度强化学习进行移动边缘计算的任务迁移方法，其中，所述步骤S3包括以下步骤：

步骤S31：引入评估参数，使得最优Q值式12，其中代表贝尔曼方程中的可调参数；

步骤S32：更换得到迭代优化目标函数为式13，其中代表上一次迭代的值；

步骤S33：得到代价函数为式14，对式14微分处理后得到代价函数梯度为式15；

步骤S34：得到参数迭代方程为式16，其中，代表学习率。

本发明的有益效果：本发明通过提供一种使用深度强化学习进行移动边缘计算的任务迁移方法，先设定系统模型各参数，再描述强化学习中的决策公式，然后基于公式给出任务迁移算法；通过本方法能够获得高效的任务迁移机制，而高效的任务迁移机制能够提高系统实时性，充分利用计算资源，并减少能耗；本方法同时运用了深度强化学习思想进行任务调度，即决策是否迁移计算任务，尤其使用了马尔可夫决策过程，能够在极短时间内给出较优解，实时性强；本方法适用于用户处在高速运动状态时，解决是否更换使用的服务器基站问题。

附图说明

图1是本发明中使用深度强化学习进行移动边缘计算的任务迁移方法的步骤流程图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接或可以相互通讯；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触，也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且，第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方，或仅仅表示第一特征水平高度小于第二特征。

下文的公开提供了许多不同的实施方式或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。当然，它们仅仅为示例，并且目的不在于限制本发明。此外，本发明可以在不同例子中重复参考数字和/或参考字母，这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施方式和/或设置之间的关系。此外，本发明提供了的各种特定的工艺和材料的例子，但是本领域普通技术人员可以意识到其他工艺的应用和/或其他材料的使用。

如图1所示，一种使用深度强化学习进行移动边缘计算的任务迁移方法，具体包括以下步骤：

步骤S1：设定系统模型各参数。描述用户位置信息：

步骤S11：定义边缘计算服务基站位置集合为。

步骤S12：定义服务时间片段集合为。

步骤S13：在t时刻，，定义用户连接的服务基站位置为。

步骤S14：定义t时刻距离用户最近的服务基站位置为，该基站也是若用户此时连接将获得最佳服务质量(Quality of Service, QoS)的基站。

步骤S15：定义式1为两基站的距离。

步骤S2：描述强化学习中的决策公式。

马尔可夫决策过程(Markov Decision Process， MDP)由一个五元组构成，，S为有限状态集合，A为有限动作集合，P为状态转移矩阵，R为奖励函数，为折扣因子，。本技术方案中，决策的智能体(Agent)为装载于用户终端的一种云计算控制装置，它可决定是否进行任务迁移。

步骤S21：定义t时刻智能体的状态为式2，为用户当前使用基站与考虑任务迁移基站的距离之差。

步骤S22：定义智能体的动作集合为式3，代表不做任务迁移，代表进行任务迁移。

步骤S23：定义t时刻智能体的动作为式4。

步骤S24：定义t时刻服务质量函数为式5；其中意为用户在t时刻获得的服务质量QoS；D代表了当前使用基站正好离用户最近的情况下的服务质量QoS，即；而为一常数，衡量了对QoS的影响程度。

步骤S25：定义t时刻代价函数为式6，其中，代表了任务迁移时产生的时间能量等消耗，其与距离有关，代价函数代表了智能体不同动作所需付出的代价。

步骤S26：定义t时刻奖励函数式7，从上式可以看出，采取动作后QoS越高，而付出代价越小，那么智能体获得的奖励回报越大。

步骤S27：定义t时刻的决策动作为式8，意为状态下智能体做出的动作函数。

步骤S28：定义t时刻决策动作后的状态为。

步骤S29：定义所有时刻的集合为。

步骤S210：定义最佳决策下所有时刻奖励函数的最大值为式9，其中代表折扣因子。

步骤S211：利用时间差分算法使系统探索最优决策，由贝尔曼方程(Bellmanequation)可得迭代公式为式10。

步骤S212：利用Q学习(Q-learning)方法可得到最优Q值式11。

步骤S3：基于公式给出任务迁移算法。

步骤S31：引入评估参数，使得最优Q值式12，其中代表贝尔曼方程中的可调参数。

步骤S32：更换得到迭代优化目标函数为式13，其中代表上一次迭代的值。

步骤S33：得到代价函数为式14，对式14微分处理后得到代价函数梯度为式15。

步骤S34：得到参数迭代方程为式16，其中，代表学习率(Learning Rate)。

通过如下伪代码实现步骤S1至步骤S3：

初始化各参数

重置存储空间H

随机生成评估参数

从集合L中随机生成当前使用的服务器位置

;

t=1;

while t≤T

令为当前距离最近服务器位置

生成随机数

if

根据步骤S31式12选择下一步动作 a

else :

随机选择动作 a

end if

根据步骤S26式7计算

将结果存入H

minibatch从H中随机选择

if j+1为最后一个选择

else:

end if

梯度下降求解中的

t=t+1

end while

本技术方案中，先设定系统模型各参数，再描述强化学习中的决策公式，然后基于公式给出任务迁移算法；通过本方法能够获得高效的任务迁移机制，而高效的任务迁移机制能够提高系统实时性，充分利用计算资源，并减少能耗；本方法同时运用了深度强化学习思想进行任务调度，即决策是否迁移计算任务，尤其使用了马尔可夫决策过程，能够在极短时间内给出较优解，实时性强；本方法适用于用户处在高速运动状态时，解决是否更换使用的服务器基站问题。

在本说明书的描述中，参考术语“一个实施方式”、“某些实施方式”、“示意性实施方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合所述实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种使用深度强化学习进行移动边缘计算的任务迁移方法，其特征在于，具体包括以下步骤：

步骤S1：设定系统模型各参数，包括以下步骤：

步骤S11：定义边缘计算服务基站位置集合为；

步骤S12：定义服务时间片段集合为；

步骤S13：在t时刻，，定义用户连接的服务基站位置为；

步骤S14：定义t时刻距离用户最近的服务基站位置为；

步骤S15：定义式1为两基站的距离；

步骤S2：采用马尔可夫决策过程描述强化学习中的决策公式，决策的智能体为装载于用户终端的一种云计算控制装置，该云计算控制装置可决定是否进行任务迁移，包括以下步骤：

步骤S23：定义t时刻智能体的动作为式4；

步骤S24：定义t时刻服务质量函数为式5；其中意为用户在t时刻获得的服务质量；D代表了当前使用基站正好离用户最近的情况下的服务质量，即；而λ为一常数，衡量了对服务质量的影响程度；

步骤S26：定义t时刻奖励函数式7；

步骤S28：定义t时刻决策动作后的状态为；

步骤S29：定义所有时刻的集合为；

步骤S212：利用Q学习方法可得到最优Q值式11；

步骤S3：基于公式给出任务迁移算法，包括以下步骤：

步骤S34：得到参数迭代方程为式16，其中，代表学习率。