CN109117255A

CN109117255A - 基于强化学习的异构多核嵌入式系统能耗优化调度方法

Info

Publication number: CN109117255A
Application number: CN201810708461.2A
Authority: CN
Inventors: 邹承明; 柳星; 刘攀文; 向剑文
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2018-07-02
Filing date: 2018-07-02
Publication date: 2019-01-01
Anticipated expiration: 2038-07-02
Also published as: CN109117255B

Abstract

本发明公开了一种基于强化学习算法的异构多核嵌入式系统能耗优化调度方法。在硬件方面，在每个处理器上装载一个DVFS调节器，通过调节各处理器工作电压，改变各处理器硬件特性，动态构建出匹配软件特性的硬件平台；在软件方面，针对传统启发式算法(遗传算法、退火算法等)或存在局部搜索能力不足或存在全局搜索能力不强等缺点，探索性地运用机器学习领域的Q‑Learning算法来寻找能耗最优化调度解。Q‑Learning算法通过不断试错以及与环境交互反馈的方式，可兼顾全局搜索和局部搜索的性能，从而实现比传统启发式算法更优的搜索效果。上千组实验表明，Q‑Learning算法相较于传统GA算法，能耗降低率可达6％～32％。

Description

基于强化学习的异构多核嵌入式系统能耗优化调度方法

技术领域

本发明属于并行和分布式系统技术领域，涉及一种异构多核嵌入式系统能耗优化调度方法，具体涉及一种基于强化学习Q-Learning算法的异构多核嵌入式系统能耗优化调度方法。

技术背景

随着电子科技的快速发展，图像处理、高清电视、电子游戏等计算复杂度较高的应用逐步运用于嵌入式设备中，对嵌入式设备的性能提出了越来越高的要求。嵌入式设备的性能可通过提升主频而提高，然而，主频的提升将快速地增加处理器的工作能耗([文献1])，从而缩短嵌入式设备的工作寿命。为优化嵌入式系统的能耗，多核嵌入式技术被提出并广泛应用([文献2])。此技术在嵌入式设备上装载多个处理器，通过多个处理器的并行运行，在避免大幅提高单个处理器工作主频的同时，极大地增强嵌入式设备的性能，从而降低嵌入式设备的工作能耗。由于多核调度被证明为NP-hard问题，启发式算法通常被应用于多核调度问题的求解([文献3、4])。然而，传统的启发式算法具有局部搜索能力不足或容易陷入局部最优等缺点，例如遗传算法无法利用计算中的反馈信息来调整自己的搜索方向，且存在局部搜索能力差的问题，容易陷入局部最优。因此，改进传统启发式算法或寻找一种更高效的新型调度算法，对于多核嵌入式技术的发展具有重要意义。此外，实时性也是嵌入式系统的重要性能因素，因此，能耗优化策略的实施需在保证实时性前提下进行。由于DVFS低功耗技术已被广泛应用于嵌入式系统中，且取得了良好的能耗优化效果([文献5])，因此，在保证实时性能前提下，结合DVFS低功耗技术，研究针对异构多核嵌入式系统的高能效调度算法，对于降低嵌入式设备能耗，促进嵌入式技术的发展与应用具有重要意义。

[文献1].Das,A.,Kumar,A.,&Veeravalli,B.(2016).Reliability and energy-aware mapping and scheduling of multimedia applications on multiprocessorsystems.IEEE Transactions on Parallel&Distributed Systems,27(3),869-884.

[文献2].Li,Y.,Niu,J.,Atiquzzaman,M.,&Long,X.(2016).Energy-awarescheduling on heterogeneous multi-core systems with guaranteedprobability.Journal of Parallel&Distributed Computing,103(C),64-76.

[文献3].Mahmood，A.，Khan，S.，Albalooshi，F.，&Awwad，N.(2017).Energy-awarereal-time task scheduling in multiprocessor systems using a hybrid geneticalgorithm，6(2)，40.

[文献4].Dai，M.，Tang，D.，Giret，A.，Salido，M.A.，&Li，W.D.(2013).Energy-efficient scheduling for a flexible flow shop using an improved genetic-simulated annealing algorithm.Robotics&Computer Integrated Manufacturing，29(5)，418-429.

[文献5].Kumar，N.，&Vidyarthi，D.P.(2017).A GA based energy awareschedulerfordvfsenabled multicore systems.Computing，99(10)，1-23.

发明内容

为了解决上述技术问题，本发明提供了一种基于强化学习的异构多核嵌入式系统能耗优化调度方法。

本发明所采用的技术方案是：一种基于强化学习的异构多核嵌入式系统能耗优化调度方法，其特征在于，包括以下步骤：

步骤1：建立异构多核系统的任务模型；

异构多核系统的任务存在一种执行顺序的约束关系，可用DAG图进行表示，将任务模型描述为一个四元组S＝(P，V，T，E)；

其中，P＝{p₀，p₁，...，p_m-1}表示m个异构处理器核心，p_i表示第i个处理器核，0≤i＜m：

V＝{v₀，v₁…，v_k-1}表示k个等级的电压集合，v_i表示第i个级别电压，0≤i＜k；

T＝{T₀，T₁，…，T_n-1}表示n个任务的集合，T_i表示第i个任务，0≤i＜n；

E表示DAG有向边集合，为n×n矩阵，由元素e_ij组成(0≤i，j＜n)；e_ij为正值时，表示任务T_j存在对任务T_i的依赖关系，且此时e_ij数值表示任务T_i到任务T_j的通信量；e_ij为-1时表示任务T_i与任务T_j不存在依赖关系。

步骤2：建立异构多核系统的调度模型；

任务T_i的调度模型用二元组J_i＝(p，v)描述，表示将任务T_i分配到p处理器核上运行，并对该处理器提供工作电压v；

步骤3：任务的预处理；

根据DAG约束关系对任务集合T进行遍历，重新排序集合T中各个任务，得到有序的任务序列T_r＝{T₀，T₁，...，T_n-1}；

步骤4：建立异构多核系统能耗模型；

对有序任务集中各个任务进行调度，得到对应的任务调度方案集合：J＝{J₀，J₁，...，J_n-1}，其中J_i表示一种调度方案，也可等效表示为J[i]。调度方案J产生的能耗和时间表示为：En_t+1，Time_t+1←fun(J)，其中fun表示根据调度方案J计算能耗En与时间7ime的函数。

步骤5：初始化Q-Learning状态集合和行动集合，初始化Q-Learning算法运行参数。

步骤6：初始化状态一个当前状态s_t和一个随机行动a_t。

步骤7：agent在当前状态s_t下执行行动a_t；若能得到能耗更优的调度方案，且满足时间约束条件，则奖励值r_t＝1，并输出方案；若得到能耗更优的调度方案，但不满足时间约束条件，则奖励值r_t＝0.1；否则，r_t＝0。

步骤8：利用奖励值r_t更新Q-table表，agent跳转到下一个状态s_t+1°

步骤9：agent在s_t+1状态下选取行动a_t+1，跳转至步骤7。

本发明的有益效果是：

(1)本发明针对嵌入式应用具有多样化的特性，在嵌入式平台上装载多个特性不同的处理器，并在每个处理器上装载一个DVFS动态电压/频率调节器，从而提高嵌入式硬件平台对应用环境的自适应性能，增强嵌入式应用的执行效率。运行时态中，将每个任务调度至最擅长执行该任务的处理器上运行，并根据任务的负载情况，实时动态调整该处理器的工作电压及频率，从而在保证任务执行截止时间的情况下，最大程序优化任务的执行能耗。

(2)针对传统启发式算法(遗传算法GA、模拟退火算法SA等)搜索异构多核系统能耗最优化调度解的局限性，本发明尝试利用强化学习中的Q-Learning算法来搜索最优解。Q-Learning克服了遗传算法无法及时利用网络反馈信息的缺陷，通过与环境进行有效的交互，并根据环境反馈信息对网络搜索方向进行即时调节，从而提高最优解的搜索效率。一方面，Q-Learning采用试错的方式寻找最优解，不断的试错过程可以带来良好的全局搜索能力；另一方面，Q-Learing根据网络搜索过程的反馈来调节自己的搜索方向，使得其又具有良好的局部搜索能力。相较于GA和SA算法，Q-Learning兼顾了全局搜索和局部搜索的性能，具有更优的优化效果。

附图说明

图1为本发明实施例的流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

针对GA和SA算法的一些局限性，本实施例尝试利用强化学习中的Q-Learning算法来寻找新的最优解。Q-Learning克服了遗传算法不能利用网络反馈信息的缺陷，它能够和环境进行有效的交互，根据环境反馈信息对网络搜索方向进行即时调节，使得搜索更有效率。Q-Learning算法本质是一种用试错寻找最优解的方式，因此他在不断的试错的过程可以带来良好的全局搜索能力，同时它能根据搜索的网络反馈来调节自己的搜索方向，这又使得它拥有良好的局部搜索能力，因此Q-Learning算法相比遗传算法同时兼顾了全局搜索和局部搜索能力，理论上在上述能耗优化领域会有更好的效果。

Q-Learning算法在本实施例中用来求解时间约束下的最优能耗的求解。DAG任务在异构多核处理器中进行调度的能耗优化问题是NP-hard，任务调度模型中考虑到了DVFS技术，使得该问题更加复杂。通过反复的实验，Q-Learning算法在上述问题的求解中通常会遇到难以收敛或者收敛后得到的调度方案效果不佳的问题，因此正常的训练、收敛、求解的机器学习求解思路无法取得理想的效果，因此本实施例提出了Q-Learning算法在优化算法求解的新思路。不同于其他学者对Q-Learning算法的应用，本实施例不关注算法的收敛性，甚至算法可以不收敛，相反本实施例利用算法的收敛过程去寻找最优解。

请见图1，本发明提供的一种基于强化学习的异构多核嵌入式系统能耗优化调度方法，包括以下步骤：

步骤1：建立异构多核系统的任务模型；

异构多核系统的任务存在一种执行顺序的约束关系，用DAG图表示；将任务模型描述为一个四元组S＝(P，V，T，E)；

其中，P＝{p₀，p₁，…，p_m-1}表示m个异构处理器核心，p_i表示第i个处理器核，0≤i＜m；V＝{v₀，v₁…，v_k-1}表示k个电压等级的集合，v_i表示第i个电压级别，0≤i＜k：

步骤2：建立异构多核系统的调度模型；

对任务T_i的调度模型用二元组J_i＝(p，v)描述，表示将任务T_i分配到p处理器核上，并提供电压v；

步骤3：任务的预处理；

步骤4：建立异构多核系统能耗模型；

对有序任务集中各个任务进行调度，得到对应的任务调度方案集合：J＝{J₀，J₁，...，J_n-1}，其中J_i表示一种调度方案，也可等效表示为J[i]。调度方案J产生的能耗和时间表示为：En_t+1，Time_t+1←fun(J)，其中fun表示根据调度方案J计算能耗En与时间Time的函数。

步骤5：执行Q-learning能耗优化算法；

具体实现包括以下子步骤：

步骤5.1：初始化Q-Learning状态集合和行动集合，初始化Q-Learning算法运行参数；

初始化行动集合为A＝{(p，v)|p∈P，v∈V}；初始化状态集合为S＝{(J，x)|J[x]∈J}，集合S的内容是未知但有限的，集合S在程序运行过程中会自动填充；利用集合A和集合S初始化Q-table表，初始化贪婪率greed，学习率α，折扣因子γ，初始化学习次数episode，初始化截止时间D；根据一个随机调度J计算初始能耗值preEn。

步骤5.2：初始化一个当前状态s_t和一个随机行动a_t；

随机初始化产生一个调度方案J，并初始化任务标识x，得到初始状态s_t＝(J，x)；随机选取一个行动a_t＝(p，v)。

步骤5.3：agent在当前状态s_t下执行行动a_t；若能得到能耗更优的调度方案，且满足时间约束条件，则奖励值r_t＝1，并输出方案；若得到能耗更优的调度方案，但不满足时间约束条件，则奖励值r_t＝0.1；否则，r_t＝0；

具体实现包括以下子步骤：

步骤5.3.1：确定agent在当前状态s_t＝(J，x)下执行行动a_t＝(p，v)得到s_t+1的策略为：用(p，v)替换集合J中第x个元素J[x]的内容得到新的集合J′，然后将标识x自增，为避免标识x出界，对自增后的x取模运算，即s_t+1＝(J′，(x+1)modn)，其中n为任务数量；

步骤5.3.2：确定agent在当前状态s_t＝(J，x)下执行行动a_t＝(p，v)的奖励策略为：计算s_t+1中调度方案J′所对应的时间Time_t+1和能耗En_t+1，即En_t+1，Time_t+1←fun(J)。若En_t+1＜En_t且Time_t+1＜Deadline，则奖励值r_t＝1，输出En_t+1和Time_t+1值，更新preEn值为preEn＝E_t+1；若En_t+1＜En_t，但Time_t+1＞Deadline，则奖励值r_t＝0.1；这样做的目的是使得算法能够以一定概率在该能耗所对应的调度方案的邻域中找出满足时间约束下的分配方案；除上述两种情况外，奖励值r_t＝0。

步骤5.4：利用奖励值r_t更新Q-table表，然后agent跳转到下一个状态s_t+1；

利用贝尔曼方程的推导公式更新Q-table表，方程式为：

Q(s_t，a_t)←Q(s_t，a_t)+α(r_t+γmax(Q(s_t+1，a_t+1))-Q(s_t，a_t))，

然后agent跳转到下一个状态s_t+1。

步骤5.5：agent在s_t+1状态下选取行动a_t+1，跳转至步骤3.3；

取0到1之间随机数b，若b大于greed或者s_t+1所对应的行动的累积奖励值为零，则随机选取一个行动赋值给a_t+1；否则，选取s_t+1所对应的行动中累积奖励值最大的行动赋值给a_t+1；将s_t+1和a_t+1作为当前状态和其对应的行动，更新s_t←-s_t+1，a_t←-a_t+1。

本实施例对GA，QL算法进行了模拟实验的对比。两种算法的用python编写，模拟实验环境在Ubuntu16.04.3LTS，Intel E7-4820 v3/1.9GHz中进行。实验所模拟的处理器能操作的电压和频率：

实验根据任务数量和任务DAG依赖数随机生成了40组任务，每组任务的属性包括任务数量、依赖边数量、核数量和截止时间。在每组实验中，任务数量tn为10到100之间的随机数。DAG图中允许存在的边数en和任务数量tn有密切的关系。根据计算，DAG图中的边数en∈[tn-1，tn*(tn-1)/2]，为了保证对真实状况的模拟，实验中en在范围[tn，tn+20]中随机选取([文献7])。根据选好的任务数量和DAG图边的数量，本实施例会随机生成DAG图。处理器核的数量在本实验中有2，4，8三种情况。一个任务集的完成时间和任务数量有密切关系，实验中为保证任务集有充足的完成时间，并且考虑到处理器核越多任务集执行完成所需要的约束时间越少的情况，本实施例在2，4，8个处理器核的情况下，分别为每个任务平均分配2us，1.5us，1us计算的时间，即一个任务集在2，4，8个处理器核三种情况下分别有tn*2us，tn*1.5us，tn*1us的截止时间。实验使用能耗下降率来描述算法对能耗的优化效果。任务下降率是指，一个任务集产生的能耗相对于任务集在单处理器核中以最高频率执行完后所产生的能耗的下降率。如下表所示，Save(％)表示能耗下降率，Time(us)任务集执行完成所需要的时间，单位为us，GA，QL分别表示遗传算法和Q-learning算法。实验结果如下表1。

表1随机任务对比

上表中从每行的数据上观察能耗下降率，在第12和28行，QL算法的能耗下降率低于GA算法。这里最可能的原因是QL算法陷入了局部最优，导致QL算法均未得出理想的结果。但是在其他的行中，QL算法的能耗下降率大于GA算法。从任务集执行完成所花费的时间来看，大部分行中QL计算出来的任务集的时间消耗，在时间约束下，均大于GA算法。上表中根据平均的能耗下降率，可以明显的看出两个算法在能耗优化中的性能表现。QL算法较于GA算法，可将嵌入式设备能耗优化6％～32％。但明显可以看出，QL算法能耗优化表现远强于GA算法。同时在约束时间内，QL算法比GA算法更能充分利用时间。

为了比较算法在不同的处理器核数目下的性能，本实施例利用两种算法对2，4，8三种处理器核数目各进行了10组实验，并对实验结果按照任务数量大小进行排序。任务数，DAG图边数，截止时间大小均按本实施例的设置规则进行生成。实验结果如下表2。

表2不同核数的对比

上表中，对比两个算法的能耗和时耗，无论在2核，4核和8核的条件下，两个算法计算处的能耗下降率仍然是QL＞GA。同时当截止时间相同时，两个算法计算出的任务集的时间消耗仍然是QL＜GA，即两个算法对时间的利用率QL＞GA。从任务数量和能耗下降率的关系上看，在2核，4核，8核条件下，GA和QL随着任务数量的增加，能耗下降率反而降低。因此从这一点上看，QL相比GA而言，更适合应用于在复杂任务的条件下进行能耗优化，并且效果良好。对比不同处理器核数量条件下两个算法的能耗下降率的表现，上表中除少数情况外，同一任务集在2核，4核和8核的条件被执行时，两种算法计算出的能耗下降率均随处理器核数量的增加而下降，即处理器核的数量增加时，两种算法计算出的能耗下降率会降低，反之则升高。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于强化学习的异构多核嵌入式系统能耗优化调度方法，其特征在于，包括以下步骤：

步骤1：建立异构多核系统的任务模型；

异构多核系统的任务存在一种执行顺序的约束关系，可用DAG图进行表示，将任务模型描述为一个四元组S＝(P,V,T,E)；

其中，P＝{p₀,p₁,…,p_m-1}表示m个异构处理器核心，p_i表示第i个处理器核，0≤i<m；

V＝{v₀,v₁…,v_k-1}表示k个等级的电压集合，v_i表示第i个级别电压，0≤i<k；

T＝{T₀,T₁,…,T_n-1}表示n个任务的集合，T_i表示第i个任务，0≤i<n；

E表示DAG有向边集合，为n×n矩阵，由元素e_ij组成(0≤i,j<n)；e_ij为正值时，表示任务T_j存在对任务T_i的依赖关系，且此时e_ij数值表示任务T_i到任务T_j的通信量；e_ij为-1时表示任务T_i与任务T_j不存在依赖关系；

步骤2：建立异构多核系统的调度模型；

任务T_i的调度模型用二元组J_i＝(p,v)描述，表示将任务T_i分配到p处理器上运行，并对该处理器提供工作电压v；

步骤3：任务的预处理；

根据DAG约束关系对任务集合T进行遍历，重新排序集合T中各个任务，得到有序的任务序列T_r＝{T₀,T₁,…,T_n-1}；

步骤4：建立异构多核系统能耗模型；

对有序任务集中各个任务进行调度，得到对应的任务调度方案集合:J＝{J₀,J₁,…,J_n-1}，其中J_i表示一种调度方案，也可等效表示为J[i]。调度方案J产生的能耗和时间表示为：En_t+1,Time_t+1←fun(J)，其中fun表示根据调度方案J计算能耗En与时间Time的函数；

步骤5：执行Q-lenrning能耗优化算法。

2.根据权利要求1所述的基于强化学习的异构多核嵌入式系统能耗优化调度方法，其特征在于，步骤5的具体实现包括以下子步骤：

步骤5.1：初始化Q-Learning行动集合和状态集合，初始化Q-Learning算法运行参数；

步骤5.2：初始化一个当前状态s_t和一个随机行动a_t；

步骤5.5：agent在s_t+1状态下选取行动a_t+1，跳转至步骤5.3。

3.根据权利要求2所述的基于强化学习的异构多核嵌入式系统能耗优化调度方法，其特征在于，步骤5.1的具体实现过程是：初始化行动集合为A＝{(p,v)|p∈P,v∈V}；初始化状态集合为S＝{(J,x)|J[x]∈J}，集合S内容是未知但有限的，集合S在程序运行过程中会自动填充；利用集合A和集合S初始化Q-table表，初始化贪婪率greed，学习率α，折扣因子γ，初始化学习次数episode，初始化截止时间Deadline；根据一个随机调度方案J计算初始能耗值preEn。

4.根据权利要求3所述的基于强化学习的异构多核嵌入式系统能耗优化调度方法，其特征在于，步骤5.2的具体实现过程是：随机初始化产生一个调度方案J，并初始化任务标识x，得到初始状态s_t＝(J,x)；随机选取一个行动a_t＝(p,v)。

5.根据权利要求4所述的基于强化学习的异构多核嵌入式系统能耗优化调度方法，其特征在于，步骤5.3的具体实现包括以下子步骤：

步骤5.3.1：确定agent在当前状态s_t＝(J,x)下执行行动a_t＝(p,v)得到s_t+1的策略为：用(p,v)替换集合J中第x个元素J[x]的内容得到新的集合J'，然后将标识x自增，为避免标识x出界，对自增后的x取模运算，即s_t+1＝(J',(x+1)modn)，其中n为任务数量；

步骤5.3.2：确定agent在当前状态s_t＝(J,x)下执行行动a_t＝(p,v)的奖励策略为：计算s_t+1中调度方案J'所对应的时间Time_t+1和能耗En_t+1，即En_t+1,Time_t+1←fun(J)。若En_t+1<En_t且Time_t+1<Dea％line，则奖励值r_t＝1，输出En_t+1和Time_t+1值，更新preEn值为preEn＝E_t+1；若En_t+1<En_t,但Time_t+1>Deadline，则奖励值r_t＝0.1；除上述两种情况外，奖励值r_t＝0。

6.根据权利要求3所述的基于强化学习的异构多核嵌入式系统能耗优化调度方法，其特征在于，步骤5.4的具体实现过程是：利用贝尔曼方程的推导公式更新Q-table表，方程式为：Q(s_t,a_t)←Q(s_t,a_t)+α(r_t+γmax(Q(s_t+1,a_t+1))-Q(s_t,a_t))，然后agent跳转到下一个状态s_t+1。

7.根据权利要求3所述的基于强化学习的异构多核嵌入式系统能耗优化调度方法，其特征在于，步骤5.5的具体实现过程是：取0到1之间随机数b，若b大于greed或者s_t+1所对应的行动的累积奖励值为零，则随机选取一个行动赋值给a_t+1；否则，选取s_t+1所对应的行动中累积奖励值最大的行动赋值给a_t+1；将s_t+1和a_t+1作为当前状态和其对应的行动，更新s_t←s_t+1，a_t←a_t+1。