CN109753751A

CN109753751A - 一种基于机器学习的mec随机任务迁移方法

Info

Publication number: CN109753751A
Application number: CN201910050825.7A
Authority: CN
Inventors: 霍如; 孟浩; 刘江; 郭倩影; 谢人超; 黄韬; 刘韵洁
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-01-20
Filing date: 2019-01-20
Publication date: 2019-05-14
Anticipated expiration: 2039-01-20
Also published as: CN109753751B

Abstract

本发明公开一种基于机器学习的随机任务迁移方法，通过将单个任务划分为N个与设备无关的可迁移组件和2个设备相关的不可迁移组件，使用马尔科夫决策过程对系统建模，利用强化学习中Q学习算法产生确定任务组件的最优迁移策略，并将任务组件数据和最优策略记录，作为训练样本，以此训练深度神经网络，随着训练样本的不断增加，神经网络学习到的能力也会越强；在神经网络准确率达到一定程度时，可以仅经过一次前向传播就能够得到随机任务的近似最优迁移策略。本发明提出的方法很好的解决了设备相关与设备无关任务随机到达时最优迁移策略的生成问题，同时可以实现在线学习。

Description

一种基于机器学习的MEC随机任务迁移方法

技术领域

本发明属于移动网络技术领域，尤其涉及一种基于机器学习的MEC随机任务迁移方法。

背景技术

移动应用的快速更迭给使用者带来了很多新功能和新体验，但是却给移动设备有限的计算能力和电池电量带来了更大的挑战。移动边缘计算(Mobile-edge computing,MEC)的提出为这个问题带来了解决方案：通过在移动接入网络侧部署高性能服务器，将一部分计算任务迁移到邻近的MEC服务器上执行，可以缓解移动应用计算需求不断增大给移动设备计算能力和电池电量带来的压力，减少移动设备应用的执行时延和移动设备的能耗，极大地提升用户体验。

随机任务模型是单用户MEC系统资源管理模型中的一种，该模型的特征为任务到达的时间是随机的，到达的任务由移动设备任务缓存队列缓存，等待系统的调度执行。本发明就是构建在该模型中的一种任务迁移方法。在随机任务模型中，主要包含移动终端设备、MEC服务器以及无线传输基站等设备。移动终端设备相关组件包括任务缓存队列，任务传输与接收单元，本地处理单元。任务缓存队列用来缓存到达但是没有处理的任务，任务传输与接收单元用来传输任务的计算信息并且接收服务器计算结果，本地处理单元即移动设备CPU，完成相关计算任务。MEC服务器用于为移动设备提供辅助的计算能力，移动基站用来连接移动终端设备与MEC服务器，实现数据通信。现有实现方案针对设备无关的随机任务，利用马尔科夫决策过程构建系统模型。任务缓存队列状态，本地执行单元的执行状态和传输单元的状态构成马尔可夫决策过程的状态空间，通过分析每一个任务在移动设备上的平均时延和平均能耗，构建一个以能耗为约束的最小化时延的优化问题，利用一维搜索算法寻找其最优解，也即最优任务迁移策略。

现阶段，基于随机任务的研究大多针对设备无关的随机任务的调度迁移方法的优化，但是在移动设备真实应用场景下，部分任务由于需要与用户交互或者访问本地I/O设备等设备相关的原因无法迁移到MEC服务器执行，导致独立随机任务调度迁移方法的低效甚至失效。另一方面，现有技术尚不具备在线学习能力。

发明内容

为解决上述问题，需要提出一种解决设备相关任务的迁移方法，并且能实现在线学习。本发明提出了一种基于机器学习的随机任务迁移方法，通过将单个任务划分为N个与设备无关的可迁移组件和2个设备相关的不可迁移组件，使用马尔科夫决策过程对系统建模，利用强化学习中Q学习算法产生确定任务组件的最优迁移策略，并将任务组件数据和最优策略记录，作为训练样本，以此训练深度神经网络，随着训练样本的不断增加，神经网络学习到的能力也会越强。在神经网络准确率达到一定程度时，可以仅经过一次前向传播就能够得到随机任务的近似最优迁移策略。本发明提出的方法很好的解决了设备相关与设备无关任务随机到达时最优迁移策略的生成问题，同时可以实现在线学习。

为实现上述目的，本发明采用如下的技术方案：

一种基于机器学习的随机任务迁移方法，包括：

步骤1、训练阶段：

随机任务到达时先暂存在缓存队列，当系统调度该任务执行时，将任务划分为2个不可迁移的设备相关的组件和N个可迁移的设备无关的组件，经过Q学习算法生成该任务的最优迁移策略，将任务组件相关信息与对应最优策略相关信息存入数据库，并且使用其训练深度神经网络；

步骤2、使用阶段：

随机任务到达时先暂存在缓存队列，当系统调度该任务执行时，将任务划分为2个不可迁移的设备相关的组件和N个可迁移的设备无关的组件，将可迁移组件信息输入训练完成的深度神经网络生成调度策略，与不可迁移组件一起按照调度策略调度执行任务，在线学习即任务的训练过程，当有新的任务到达时，移动设备首先按照任务的使用流程执行任务，并且将任务数据记录，当设备空闲时，执行训练阶段流程，训练神经网络，以此提升网络性能作为优选，根据以上算法马尔科夫决策过程描述，Q学习算法为：

Step 1初始化Q(S_t,a_t)，设置情节数n＝0和情节设定值N和贪婪策略上限值epi；

Step 2随机初始化状态S_t，并使其满足组件C_j同一时间只分配给一个逻辑处理器的原则，步骤数step＝1；

Step 3计算状态S_t是否满足终止条件,如果满足终止条件，返回Step 2

Step 4根据贪婪策略，从动作空间A中选取当前状态S_t的值函数Q(S_t,a_t)最大的动作a_p，若Q(S_t,a_t)为最大的数量超过2，则随机从对应的几个动作中选取一个a_t作为a_p；

Step 5产生[0,1]之间的随机数ε，如果ε小于epi和1+step与10+step之商的最小值，则a的值等于a_p，反之从有效动作空间A中随机选取一动作a_r，使a的值等于a_r；

Step 6执行动作a，进入下一状态S_t+1，获得即时奖励r；

Step 7由Q学习算法更新公式更新Q(S_t,a_t)；

Step 8将S_t+1赋值给S_t，step加1，如果S_t不满足终止条件，转step4，否则S_t为当前情节的终态，当前情节结束，并令n加1；若情节数n达到设定值N，算法结束；否则，返回Step2继续执行。

作为优选，深度神经网络结构采用深度前馈神经网络，通过深度全连接前馈神经网络来构造多任务部分迁移策略生成器，其输入维度为N，代表确定任务的N个可迁移组件数据量；每一个组件均有可能在移动设备CPU执行或者迁移到MEC服务器执行，即任务分配过程中的总策略数为2^N，输出维度为2^N，其激活函数使用“sigmoid”；隐藏层数为H，其激活函数使用“ReLU”；深度神经网络的策略生成过程为多分类的过程，将任务的N个可迁移组件数据经过正规化后输入神经网络，经过前向传播得到输出结果并利用softmax算法进行概率转换得到每一个分类的概率，将得到的结果使用交叉熵损失函数计算代价，同时使用L2正则化损失函数并使用反向传播算法更新神经网络参数，不断训练。

附图说明

图1单用户MEC系统结构图；

图2本发明训练及使用整体流程图；

图3 Q学习算法执行流程图。

具体实施方式

本发明考虑单用户MEC系统中移动设备随机多任务场景下的任务调度问题，解决设备相关与设备无关随机任务到达时最优调度策略的生成问题。

单用户MEC系统结构如图1所示，主要包含一个移动设备和一个MEC服务器，其中，移动设备主要由任务缓存队列、策略生成器、传输单元和处理单元组成；MEC服务器主要使用到的就是其处理器单元，这里假设处理器运算能力足够，没有任务排队的情况。

本发明提出的方法在训练时整体过程为：随机任务到达时先暂存在缓存队列，当系统调度该任务执行时，将任务划分为2个不可迁移的设备相关的组件和N个可迁移的设备无关的组件，经过Q学习算法生成该任务的最优迁移策略，将任务组件相关信息与对应最优策略相关信息存入数据库，并且使用其训练深度神经网络，该算法充分利用机器学习算法的学习能力和泛化能力，随着处理任务数量的增多，通过持续的训练神经网络从而不断提升其产生策略的精度。在使用时该方法的整体处理过程为：随机任务到达时先暂存在缓存队列，当系统调度该任务执行时，将任务划分为2个不可迁移的设备相关的组件和N个可迁移的设备无关的组件，将可迁移组件信息输入训练完成的深度神经网络生成调度策略，与不可迁移组件一起按照调度策略调度执行任务。在线学习即任务的训练过程，当有新的任务到达时，移动设备首先按照任务的使用流程执行任务，并且将任务数据记录，当设备空闲时，执行训练阶段流程，训练神经网络，以此提升网络性能。训练及使用时方法整体执行流程图2如下：

主要算法模块详细信息描述如下：

1)Q学习算法：

确定任务的马尔科夫决策过程(MDP)模型表示为：

a)状态空间：

定义确定任务i在t时刻到达时的状态空间S^t包括移动设备两个逻辑执行单元(即本地单核CPU和传输单元与MEC服务器组成的处理单元)状态和任务的N个可迁移组件的分配状态，即任务迁移策略的一个可行解，任务i的状态转移就是在分配策略解空间上的搜索。

b)动作空间：

定义动作空间A由任务i的N个可迁移组件的集合C_i表示，对于任意状态，都有N个动作，也即N个可迁移组件数。第j个动作(0≤j≤n)把第j个组件迁移到下一个逻辑处理单元中。

c)即时回报：

考虑到任务i的学习过程就是在解空间上的搜索过程，搜索的目的是找到任务分配策略的最优解，任务在状态S_t时时延与能耗的计算结果可能不在同一量级，使用sigmoid函数来分别对时延与能耗进行放缩，基于sigmoid函数的特性，当x趋向正无穷时，函数的值趋向于0，当x趋向于负无穷时，其值趋向于1，故使用函数sigmoid函数可以将时延和能耗放缩到同一个数量级下。所以定义在状态s_t下采取动作a_t所获得的即时回报为下一个状态的时延与能耗加权和与当前状态时延能耗加权和的差。sig(x)函数中x越大，函数的值越小，相反，x越小，函数的值越大。当状态s_t+1的时延和能耗比状态s_t大时，t时刻的即时回报为负数，即在状态s_t下采取动作a_t使状态变差，给予该动作负向惩罚；当状态s_t+1的时延和能耗比状态s_t小时，t时刻的即时回报为正数，即在状态s_t下采取动作a_t使状态变优，给予该动作正向奖励。目的是找到时延和能耗加权和最小的策略，这样定义即时回报优势为使Q学习能更快的收敛到最优策略。

d)终止条件：

当处于S_t状态时，采取N个动作时转移到状态S_t+1时所获得的即时回报均为负，即当前状态为一个局部最优解时当前情节终止。

根据以上算法马尔科夫决策过程描述，Q学习算法流程图，如图3，可以表示为：

Step 6执行动作a，进入下一状态S_t+1，获得即时奖励r；

Step 7由Q学习算法更新公式更新Q(S_t,a_t)；

深度神经网络结构采用深度前馈神经网络，本发明采用深度全连接前馈神经网络来构造多任务部分迁移策略生成器，其输入维度为N，代表确定任务的N个可迁移组件数据量；由于每一个组件均有可能在移动设备CPU执行或者迁移到MEC服务器执行，所以任务分配过程中的总策略数为2^N，输出维度为2^N，其激活函数使用“sigmoid”；隐藏层数为H，其激活函数使用“ReLU”。深度神经网络的策略生成过程本质上是多分类的过程，将任务的N个可迁移组件数据经过正规化后输入神经网络，经过前向传播得到输出结果并利用softmax算法进行概率转换得到每一个分类的概率，将得到的结果使用交叉熵损失函数计算代价，为避免过拟合，使用L2正则化损失函数并使用反向传播算法更新神经网络参数，不断训练，使神经网络产生较高的准确率。

本发明的有益效果为：

1.本发明提出了解决单用户MEC系统中移动设备随机多任务场景下的任务调度问题的方法。其特征在于基于机器学习的方法，通过将任务划分为数据相关的组件，解决设备相关随机任务的调度问题，同时可以实现在线学习。

2.本发明设计了基于Q学习的随机单任务最优策略生成方法。其特征在于构建基于单用户MEC系统的马尔科夫决策模型，并且利用Q学习算法进行动作空间、状态空间的更新和即时回报函数的构建，进一步找到最优解，即生成最优策略。

3.本发明设计了基于Q学习的随机任务训练模型以及基于深度神经网络的随机任务最优迁移执行模型。

4.本发明设计了解决随机任务迁移方法生成的深度神经网络结构，采用深度前馈神经网络，其输入为N个设备无关的可迁移组件的输入数据量，输出为2^N,表示组件的迁移策略。

Claims

1.一种基于机器学习的随机任务迁移方法，其特征在于，包括：

步骤1、训练阶段：

步骤2、使用阶段：

随机任务到达时先暂存在缓存队列，当系统调度该任务执行时，将任务划分为2个不可迁移的设备相关的组件和N个可迁移的设备无关的组件，将可迁移组件信息输入训练完成的深度神经网络生成调度策略，与不可迁移组件一起按照调度策略调度执行任务，在线学习即任务的训练过程，当有新的任务到达时，移动设备首先按照任务的使用流程执行任务，并且将任务数据记录，当设备空闲时，执行训练阶段流程，训练神经网络，以此提升网络性能。

2.如权利要求1所述的基于机器学习的随机任务迁移方法，其特征在于，根据以上算法马尔科夫决策过程描述，Q学习算法为：

Step 6执行动作a，进入下一状态S_t+1，获得即时奖励r；

Step 7由Q学习算法更新公式更新Q(S_t,a_t)；

Step 8将S_t+1赋值给S_t，step加1，如果S_t不满足终止条件，转step4，否则S_t为当前情节的终态，当前情节结束，并令n加1；若情节数n达到设定值N，算法结束；否则，返回Step 2继续执行。

3.如权利要求1所述的基于机器学习的随机任务迁移方法，其特征在于，深度神经网络结构采用深度前馈神经网络，通过深度全连接前馈神经网络来构造多任务部分迁移策略生成器，其输入维度为N，代表确定任务的N个可迁移组件数据量；每一个组件均有可能在移动设备CPU执行或者迁移到MEC服务器执行，即任务分配过程中的总策略数为2^N，输出维度为2^N，其激活函数使用“sigmoid”；隐藏层数为H，其激活函数使用“ReLU”；深度神经网络的策略生成过程为多分类的过程，将任务的N个可迁移组件数据经过正规化后输入神经网络，经过前向传播得到输出结果并利用softmax算法进行概率转换得到每一个分类的概率，将得到的结果使用交叉熵损失函数计算代价，同时使用L2正则化损失函数并使用反向传播算法更新神经网络参数，不断训练。