CN109002358A

CN109002358A - 基于深度强化学习的移动终端软件自适应优化调度方法

Info

Publication number: CN109002358A
Application number: CN201810811580.0A
Authority: CN
Inventors: 肖亮; 戴灿煌; 许冬瑾; 江东华; 唐余亮
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2018-07-23
Filing date: 2018-07-23
Publication date: 2018-12-14
Anticipated expiration: 2038-07-23
Also published as: CN109002358B

Abstract

基于深度强化学习的移动终端软件自适应优化调度方法，涉及计算技术。自动优化设置移动设备上各软件进程卸载数量，并且对本地任务进程划分优先级，分配CPU计算资源和内存资源，旨在降低移动设备的能量损耗，减少任务处理时延。通过测量移动设备上各软件的实时线程任务的规模，估测移动设备至边缘设备动态无线链路的带宽，采用深度强化学习算法评估各个进程的时延，能量损耗等反馈信息，获取软件的优化调度方案。不需要预知移动设备到边缘设备的无线信道模型和移动设备系统的CPU计算资源和内存资源占用模型，即可减少移动设备上各软件任务处理时延和能量损耗，改善用户体验。

Description

基于深度强化学习的移动终端软件自适应优化调度方法

技术领域

本发明涉及计算技术，尤其是涉及基于深度强化学习的移动终端软件自适应优化调度方法。

背景技术

随着各类应用软件的发展和创新，移动设备如智能手机等需要处理的计算任务规模越来越大，对于移动设备CPU的计算能力要求越来越高。移动设备CPU性能过差或者计算顺序不合理会导致应用软件的运行不流畅，比如游戏出现卡顿等，影响用户体验。在固定移动设备硬件条件下通过系统层面的优化方案协调任务进程，对于减少任务处理时延提高用户体验具有重要的意义。

对此A.S.Wu等(A.S.Wu,H.Yu,S.Jin,et al,"An incremental geneticalgorithm approach to multiprocessor scheduling,"IEEE Transactions onParallel and Distributed Systems,2004，15(9)：824-834)针对多处理器设备中的任务调度问题提出了一种基于遗传算法的解决方案。K.Li等(K.Li,"Scheduling precedenceconstrained tasks with reduced processor energy on multiprocessor computers,"IEEE Transactions on Computers,2012，61(12)：1668-1681)将进程优化问题任务细分为三个子问题，考虑优先级限制，任务调度和资源供应，并提出prepower决策算法、postpower决策算法和混合算法来确定进程优先级和资源分配。

边缘计算可以为接入网络的移动设备提供额外的存储空间和计算资源，通过将部分本地的任务卸载到边缘设备上可有效地减少本地计算负担，特别是对于需要大量并行计算的任务。然而,移动设备通常必须通过无线网络连接到边缘计算网络中，无线信道的不稳定性对于边缘计算网络的效果具有很大影响，当通信信道质量差时，移动设备需要更长卸载时间，甚至超过边缘计算减少的计算时延，同时，卸载数据给移动设备增加额外的天线发射功率损耗。

Y.Mao等(Y.Mao,J.Zhang,and K.B.Letaief,“Dynamic computation offloadingfor mobile-edge computing with energy harvesting devices,”IEEE J.Sel.Areas inCommun.,2016，34(12)：3590–3605)考虑传输时延和计算时延，采用Lyapunov优化来决定将任务完全卸载到边缘计算设备上或者全部在本地处理。Y.Wang等(Y.Wang,M.Sheng,X.Wang,L.Wang,and J.Li,“Mobile-edge computing:Partial computation offloadingusing dynamic voltage scaling,”IEEE Trans.Commun.,2016，64(10)：4268–4282)提出的部分卸载策略通过同时调节计算传输功率和卸载比例以及本地的计算资源减少系统的能量损耗和时延。

发明内容

本发明的目的是为解决移动设备的软件自适应优化调度问题，提供基于深度强化学习的移动终端软件自适应优化调度方法。

本发明包括以下步骤：

1)移动终端设备通过无线网络与周围的边缘计算设备相连；

2)移动终端设备构造深度卷积神经网络，初始化网络权重参数θ⁽⁰⁾＝0；

3)在k时刻，移动终端设备产生N^(k)个进程的计算任务，0≤N^(k)≤N_max，N_max为设备最多可产生的进程数。根据上一时刻进程计算所耗费的能量E^(k-1)、进程的时延T^(k-1)、移动设备与边缘设备之间的无线信道带宽b^(k-1)，以及当前测量到的剩余可用的CPU计算资源X^(k)和内存大小Y^(k)组成移动设备当前的状态s^(k)＝[N^(k),T^(k-1),E^(k-1),X^(k)，Y^(k)，b^(k-1)]；

4)在第k时刻，移动设备首先构造一个序列是由当前状态s^(k)以及以往记录的W个状态和优化方案以及当前状态依次排列组成，即

当k≤W时，移动设备随机选择一种软件优化方案a^(k)＝[x^(k),L^(k),m^(k),n^(k)]，该方案表示移动设备卸载x^(k)个进程到边缘设备，并且对剩余的1≤i≤(N^(k)-x^(k))个进程划分不同的优先级分配CPU计算资源和内存资源其中和分别是为进程i划分的进程、计算资源以及内存资源，L_max为最高优先级；

当k＞W时，将序列输入到深度卷积神经网络，根据卷积神经网络当前的权重参数θ^(k)，将神经网络的输出结果作为每一种方案的Q值。根据当前时刻数和退火步数τ更新一个探索因子ε，设备最终依概率1-ε，选取最大的Q值对应的优化方案，依概率ε随机选择一个其他的优化方案；

5)移动设备对本次任务执行步骤4)选择的优化调度方案，任务完成后测量消耗的能量E^(k)和本次任务各个进程的时延T^(k)；

6)移动设备计算本次方案选择的效益u^(k)；

7)移动设备记录第k时刻的经验将其存储到经验池D中；

8)移动设备采用样本数为B的minibatch随机梯度下降算法来更新网络权重参数。当k＞B时，移动设备随机从经验池D中选取B条经验，每条经验记为取作为输入，通过当前的神经网络，输出结果计算损失值L^(d)，将所有B条经验对应的损失值取平均，表示为L(θ^(k))，采用梯度下降算法与神经网络的反向传播算法更新权重参数θ^(k)；

9)根据环境变化，重复步骤3)～8)，直到移动设备获得稳定的软件优化调度方案。

在步骤2)中，所述构造深度卷积神经网络可包含H+M层，前H层为卷积层，后M层为全连接层，其中最后一层的输出数目与可选的软件优化方案数目一致。

在步骤3)中，所述移动终端设备记录上一时刻的带宽作为系统状态之一而不采用当前带宽，因为测量当前带宽再决定优化方案会带来更多的系统时延。

在步骤4)中，所述探索因子ε(0≤ε≤1)在退火步数τ内随着时隙数均匀减小，之后保持一个较小的值；根据神经网络输出的特点，优化方案中的移动设备的CPU计算资源和内存空间的分配比例和的取值均为离散值，并且满足以及

在步骤6)中，在第k时刻，移动设备的效益由能量损耗和时延组成，其中对于不同优先级的软件进程其时延带来的影响不同，具体的效益公式为：其中λ为一个常系数，衡量移动设备对能量损耗和时延之间的相对重视程度。

与已有的软件优化方法不同，本发明中移动设备采用深度强化学习算法，可适应动态变化的无线信道带宽和移动设备硬件资源，同时优化进程调度和卸载，减少计算时延和能量损耗，改善用户体验。

本发明提供一种基于深度强化学习的移动终端软件自适应优化调度方法，自动优化设置移动设备上各软件进程卸载数量，并且对本地任务进程划分优先级，分配CPU计算资源和内存资源，旨在降低移动设备的能量损耗，减少任务处理时延。本发明通过测量移动设备上各软件的实时线程任务的规模，估测移动设备至边缘设备动态无线链路的带宽，采用深度强化学习算法评估各个进程的时延，能量损耗等反馈信息，获取软件的优化调度方案。本发明不需要预知移动设备到边缘设备的无线信道模型和移动设备系统的CPU计算资源和内存资源占用模型，即可减少移动设备上各软件任务处理时延和能量损耗，改善用户体验。

具体实施方式

下面结合实施例进一步描述本发明的技术方案，但要求保护的范围并不局限于所述。

本发明实施例包括以下步骤：

步骤1：移动终端设备通过无线网络与周围的边缘计算设备相连。

步骤2：构造一个深度卷积神经网络，包含4个层。第一层为卷积层，输入个数为21×21，包含有20个10×10的卷积核，步进为1，输出个数为20×12×12；第二层为卷积层，输入个数为20×12×12，包含有40个5×5的卷积核，步进为1，输出个数为40×8×8；第三层为全连接层，输入个数为2560，输出个数为1024；最后一层为全连接层，输入大小为1024，输出个数为可选方案数。4层都采用ReLU函数作为激活函数；

步骤3：初始化深度卷积神经网络的权重参数θ、输入序列长度W＝6以及网络更新的操作次数B＝16；初始化学习因子α＝0.7，折扣因子γ＝0.5，初始探索因子ε＝1，退火步数τ＝100；最大优先级；最大进程数N_max＝16；计算资源和内存资源量化间隔均设置为0.2；初始化功率因子λ＝0.1；

步骤4：在k时刻，移动终端设备产生N^(k)个进程的计算任务，根据上一时刻进程计算所耗费的能量E^(k-1)、进程的时延T^(k-1)、移动设备与边缘设备之间的无线信道带宽b^(k-1)，以及当前剩余可用的CPU计算资源X^(k)和内存大小Y^(k)组成移动设备当前的状态s^(k)＝[N^(k),T^(k-1),E^(k-1),X^(k)，Y^(k)，b^(k-1)]。

步骤5：在第k时刻，当k≤6时，移动设备随机选择一种软件优化调度方案a^(k)＝[x^(k),L^(k),p^(k),q^(k)]。当k＞6时，移动设备首先构造一个序列是由当前状态s(^k)以及以往记录的5个状态和优化方案依次排列组成。将序列输入到深度卷积神经网络，根据卷积神经网络当前的权重参数θ^(k)，将神经网络的输出结果作为每一种方案的Q值。根据当前时刻数和退火步数τ更新ε，依概率1-ε，选取最大的Q值对应的优化调度方案，依概率ε随机选择一个其他的优化调度方案；

步骤6：移动设备对本次任务执行步骤4选择的优化调度方案，任务完成后估测消耗的能量E^(k)和本次任务各个进程的时延T^(k)。

步骤7：移动设备计算本次方案选择的效益u^(k)；

步骤8：移动设备记录第k时刻的经验将其存储到经验池D中；

步骤9：当k＞21时,更新第k时刻深度学习神经网络的权重参数θ^(k)。首先从经验池D中抽取16条经验，每条经验取作为输入，通过当前的神经网络，输出结果计算损失值L^(d)，将所有16条经验对应的损失值取平均，表示为L(θ^(k))，采用梯度下降算法与神经网络的反向传播算法更新权重参数θ^(k)；

步骤10：根据环境变化，重复步骤3～8，直到移动设备获得稳定的软件优化调度方案。

Claims

1.基于深度强化学习的移动终端软件自适应优化调度方法，其特征在于包括以下步骤：

1)移动终端设备通过无线网络与周围的边缘计算设备相连；

3)在k时刻，移动终端设备产生N^(k)个进程的计算任务，0≤N^(k)≤N_max，N_max为设备最多可产生的进程数；根据上一时刻进程计算所耗费的能量E^(k-1)、进程的时延T^(k-1)、移动设备与边缘设备之间的无线信道带宽b^(k-1)，以及当前测量到的剩余用的CPU计算资源X^(k)和内存大小Y^(k)组成移动设备当前的状态s^(k)＝[N^(k),T^(k-1),E^(k-1),X^(k)，Y^(k)，b^(k-1)]；

当k＞W时，将序列输入到深度卷积神经网络，根据卷积神经网络当前的权重参数θ^(k)，将神经网络的输出结果作为每一种方案的Q值，根据当前时刻数和退火步数τ更新一个探索因子ε，设备最终依概率1-ε，选取最大的Q值对应的优化方案，依概率ε随机选择一个其他的优化方案；

6)移动设备计算本次方案选择的效益u^(k)；

7)移动设备记录第k时刻的经验将其存储到经验池D中；

8)移动设备采用样本数为B的minibatch随机梯度下降算法来更新网络权重参数，当k＞B时，移动设备随机从经验池D中选取B条经验，每条经验记为取作为输入，通过当前的神经网络，输出结果计算损失值L^(d)，将所有B条经验对应的损失值取平均，表示为L(θ^(k))，采用梯度下降算法与神经网络的反向传播算法更新权重参数θ^(k)；

2.如权利要求1所述基于深度强化学习的移动终端软件自适应优化调度方法，其特征在于在步骤2)中，所述构造深度卷积神经网络包含H+M层，前H层为卷积层，后M层为全连接层，其中最后一层的输出数目与可选的软件优化方案数目一致。

3.如权利要求1所述基于深度强化学习的移动终端软件自适应优化调度方法，其特征在于在步骤3)中，所述移动终端设备记录上一时刻的带宽作为系统状态之一而不采用当前带宽，因为测量当前带宽再决定优化方案会带来更多的系统时延。

4.如权利要求1所述基于深度强化学习的移动终端软件自适应优化调度方法，其特征在于在步骤4)中，所述探索因子ε在退火步数τ内随着时隙数均匀减小，之后保持一个较小的值，其中0≤ε≤1；根据神经网络输出的特点，优化方案中的移动设备的CPU计算资源和内存空间的分配比例和的取值均为离散值，并且满足以及

5.如权利要求1所述基于深度强化学习的移动终端软件自适应优化调度方法，其特征在于在步骤6)中，在第k时刻，移动设备的效益u_i ^(k)由能量损耗和时延组成，其中对于不同优先级的软件进程其时延带来的影响不同，具体的效益公式为：其中λ为一个常系数，衡量移动设备对能量损耗和时延之间的相对重视程度。