CN113157043A

CN113157043A - 基于强化学习的异构多核处理器动态电压调节方法及系统

Info

Publication number: CN113157043A
Application number: CN202110477861.9A
Authority: CN
Inventors: 陈弟虎; 粟涛; 杨旭明
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-07-23
Anticipated expiration: 2041-04-29
Also published as: CN113157043B

Abstract

本发明提供一种基于强化学习的异构多核处理器动态电压调节方法，方法包括以下步骤：S1：每一时间步上，获取多核处理器的状态数据，处理后得到状态值；S2：设置动态电压调节指令，得到动作集；S3：设置智能体，所述智能体根据当前时刻的状态值，从所述动作集中选取动态电压调节指令；S4：所述多核处理器根据选择的动态电压调节指令进行动态电压调节；S5：获取动态电压调节后的多核处理器的状态值，计算奖励；S6：根据奖励更新智能体，选择下一时间步长的动态电压调节指令；S7：评估动态电压调节是否达到预期效果，若达到，则结束动态电压调节，若未达到，返回步骤S3。本发明可以适应不同类型的处理器平台和满足不同的功耗与性能要求。

Description

基于强化学习的异构多核处理器动态电压调节方法及系统

技术领域

本发明涉及多核处理器电压调节领域，更具体地，涉及一种基于强化学习的异构多核处理器动态电压调节方法及系统。

背景技术

现有的动态电压调节技术大多都针对全部核心进行全局动态电压频率调节，或者针对单独的每一个核心进行独立的动态电压频率调节。全局动态电压频率调节的硬件实现简单，但效率较低；独立的动态电压频率调节能够很好地降低系统的能耗，但需要复杂的硬件支持。使用多个电压域能够平衡硬件开销与能效。异构多核处理器通常将相同的核心放在一起组成核心集群(cluster)，共享一定的系统资源(如缓存)，通过组成不同类型的核心集群实现异构。将电压域与核心集群融合在一起能够简化系统；实际上，大多数异构多核处理器也将将电压域与核心集群融合在一起。

现有技术的局限、缺点及该些缺点存在的原因为：

现有的动态电压调节技术需要针对异构多核处理器的特点进行优化；

现有的动态电压调节策略采用传统的算法进行改进。传统的算法难以适应所有状况多变的程序负载特性；使用软件实现动态电压调节策略受限于计算效率，也难以实现部署复杂的算法。

公开日为2012年04月11日，公开号为CN102411395A的中国专利公开了一种基于片上监测和电压预测的动态电压调节系统，包括集成有片上监测电路的主电路电源电压调节模块和电压转换器件；电源电压调节模块包括计算主电路当前时间片段错误率的采样统计模块记录错误率及对应电源电压的状态记录模块错误预测模块和状态转移概率生成模块；错误预测模块根据状态记录模块和状态转移概率生成模块，对主电路将来一时间片段的出错趋势进行预测，生成调节信号，送给相应的电压转换器件，产生整个主电路工作所需电压。但该方法无法适应不同类型的处理器平台和满足不同的功耗与性能要求。

发明内容

本发明的首要目的是提供一种基于强化学习的异构多核处理器动态电压调节方法，适应不同类型的处理器平台和满足不同的功耗与性能要求。

本发明的进一步目的是提供一种基于强化学习的异构多核处理器动态电压调节系统。

为解决上述技术问题，本发明的技术方案如下：

一种基于强化学习的异构多核处理器动态电压调节方法，，包括以下步骤：

S1：每一时间步上，获取多核处理器的状态数据，处理后得到状态值；

S2：设置动态电压调节指令，得到动作集；

S3：设置智能体，所述智能体根据当前时刻的状态值，从所述动作集中选取动态电压调节指令；

S4：所述多核处理器根据选择的动态电压调节指令进行动态电压调节；

S5：获取动态电压调节后的多核处理器的状态值，计算奖励；

S6：根据奖励更新智能体，选择下一时间步长的动态电压调节指令；

S7：评估动态电压调节是否达到预期效果，若达到，则结束动态电压调节，若未达到，返回步骤S3。

优选地，步骤S1中，所述多核处理器的状态数据包括处理器内部数据和处理器功耗数据，其中，所述处理器内部数据包括CPU频率、CPU时钟周期数、CPU执行的指令的数目、CPU一级指令缓存的读取及缺失次数，CPU一级数据缓存的读取，写回及缺失次数，CPU二级缓存的的读取，写回及缺失次数，CPU最后一级缓存的读取，写回及缺失次数，乘除法单元的执行次数和特殊指令的执行次数，所述处理器内部数据有读取CPU内部寄存器获得或通过软件测量获得，所述处理器外部数据包括CPU的瞬时功耗和CPU的平均功耗，所述处理器外部数据有功耗测量仪测量获得。

优选地，步骤S1中所述多核处理器的状态数据经过离散化之后形成状态值：

s_t＝{s_t，1，s_t，2，…，s_t，n}

式中，n表示每个时刻包含的状态数，t表示时刻t，s_t，1，s_t，2，…，s_t，n分别表示离散化之后的多核处理器的状态数据。

优选地，步骤S2中所述动态电压调节指令包括上调CPU的频率、下调CPU的频率、提示操作系统迁移当前CPU当中的程序、关闭CPU核心和开启CPU核心，由下式表示：

a＝{a₁，a₂，…，a_n}

式中，n为动作集中动作的数量，a₁,a₂,...,a_n为不同的动态电压调节指令。

优选地，所述智能体采用Q学习生成策略π来选择动态电压调节指令，所述Q学习生成策略π具体为：

通过查找Q table的方式，选择“状态-动作值”最大的那个动作来继续执行，然而得到环境的反馈结果再对“状态-动作值”进行更新，不断更新Q值，从而进行优化：

观测状态：

s＝s_t＝{s_t，1，s_t，2，…，s_t，n}

智能体根据当前的状态信息s，使用∈贪婪策略选择出动作a＝π^∈(s)；根据智能体给出的决策a，通过专用的硬件接口向CPU发送动态电压调节指令智能体观察下一个状态s′＝s_t+1＝{s_t+1，1，s_t+1，2，…，s_t+1，n}，计算奖励r；

根据策略π(s′，a′)选择出动作a′＝π(s′)，并根据Q学习算法，通过以下公式更新Q值：

Q(s，a)＝Q(s，a)+θ·{r+γ·max_a′[Q^*(s′，a′)]-Q(s，a)}

其中θ和γ分别是学习率和奖励折扣因子。

优选地，步骤S5中所述奖励的计算方法具体为：

r_t＝αT_{inst-throughtput}-βP_dynamic-μP_average

式中，α，β，θ是非负数，α作为指令吞吐量T_{inst-throughtput}系数，增大α的值可以增加指令吞吐量在奖励函数的权重，使得强化学习策略偏向于提升CPU的性能；β作为CPU瞬时功耗的P_dynamic系数，增大β可以增大对CPU瞬时功耗的惩罚，使得强化学习策略偏向于抑制CPU瞬时功耗；μ作为CPU在一段时间内平均功耗θP_average的系数，增大μ可以增大CPU平均功耗的惩罚，使得强化学习策略偏向于抑制CPU平均功耗。

优选地，步骤S7中动态电压调节是否达到预期效果时，将此事的Q值表存储至非易失性闪存里，等待上电后，通过CPU或者状态机对Q值表格进行读取。

优选地，所述存储在非易失性闪存中的Q值表，先读取到随机存储RAM中，再从RAM中读取Q值至智能体状态机中。

优选地，所述智能体状态机采用FPGA进行实现。

一种基于强化学习的异构多核处理器动态电压调节系统，所述系统基于上述所述的基于强化学习的异构多核处理器动态电压调节方法，包括：

状态值获取模块，所述状态值获取模块用于在每一时间步上，获取多核处理器的状态数据，处理后得到状态值；

动作集获取模块，所述动作集获取模块用于设置动态电压调节指令，得到动作集；

智能体设置模块，所述智能体设置模块用于设置智能体，所述智能体根据当前时刻的状态值，从所述动作集中选取动态电压调节指令；

第一调节模块，所述第一调节模块用于使所述多核处理器根据选择的动态电压调节指令进行动态电压调节；

奖励计算模块，所述奖励计算模块用于获取动态电压调节后的多核处理器的状态值，计算奖励；

第二调节模块，所述第二调节模块用于根据奖励更新智能体，选择下一时间步长的动态电压调节指令；

判断及循环模块，所述判断及循环模块用于评估动态电压调节是否达到预期效果，若达到，则结束动态电压调节，若未达到，则返回智能体设置模块重新进行调节。

与现有技术相比，本发明技术方案的有益效果是：

(1)强化学习算法可以适应CPU状态与功耗之间的一些非线性关系；

(2)强化学习算法的奖励函数可以根据实际情况进行修改，适应不同类型的处理器平台和满足不同的功耗与性能要求；

(3)采用硬件加速基于强化学习的动态电压调节策略，使得动态电压调节策略能够适应复杂的环境；

(4)采用软硬件加密的方式保护基于强化学习的动态电压调节策略，可以保护基于强化学习的动态电压调节策略的技术细节，并且保护用户程序的行为不被窃听。

附图说明

图1为本发明的方法流程示意图。

图2为本发明的系统结构示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提供一种基于强化学习的异构多核处理器动态电压调节方法，如图1，包括以下步骤：

S2：设置动态电压调节指令，得到动作集；

步骤S1中，所述多核处理器的状态数据包括处理器内部数据和处理器功耗数据，其中，所述处理器内部数据包括CPU频率、CPU时钟周期数、CPU执行的指令的数目、CPU一级指令缓存的读取及缺失次数，CPU一级数据缓存的读取，写回及缺失次数，CPU二级缓存的的读取，写回及缺失次数，CPU最后一级缓存的读取，写回及缺失次数，乘除法单元的执行次数和特殊指令的执行次数，所述处理器内部数据有读取CPU内部寄存器获得或通过软件测量获得，所述处理器外部数据包括CPU的瞬时功耗和CPU的平均功耗，所述处理器外部数据有功耗测量仪测量获得。

步骤S1中所述多核处理器的状态数据经过散化之后形成状态值：

s_t＝{s_t，1，s_t，2，…，s_t，n}

步骤S2中所述动态电压调节指令包括上调CPU的频率、下调CPU的频率、提示操作系统迁移当前CPU当中的程序、关闭CPU核心和开启CPU核心，由下式表示：

a＝{a₁，a₂，…，a_n}

所述智能体采用Q学习生成策略π来选择动态电压调节指令，所述Q学习生成策略π具体为：

观测状态：

s＝s_t＝{s_t，1，s_t，2，…，s_t，n}

Q(s，a)＝Q(s，a)+θ·{r+γ·max_a′[Q^*(s′，a′)]-Q(s，a)}

其中θ和γ分别是学习率和奖励折扣因子。

步骤S5中所述奖励的计算方法具体为：

r_t＝αT_{inst-throughtput}-βP_dynamic-μP_average

步骤S7中动态电压调节是否达到预期效果时，由于存储Q值表格需要满足掉电不丢失数据的条件，将此事的Q值表存储至非易失性闪存里，等待上电后，通过CPU或者状态机对Q值表格进行读取。

所述存储在非易失性闪存中的Q值表，由于动态电压调节策略在运行的时候需要频繁地访问Q值表格，先读取到随机存储RAM中，再从RAM中读取Q值至智能体状态机中，加快访问速度。

由于奖励函数的可编程性，状态机设计也需要满足可编程性，因此判断下一步动作，给出下一步动作指令的状态机可使用可编程电路实现，所述智能体状态机采用FPGA进行实现。

实施例2

一种基于强化学习的异构多核处理器动态电压调节系统，如图2，所述系统基于实施例1所述的基于强化学习的异构多核处理器动态电压调节方法，包括：状态值获取模块，所述状态值获取模块用于在每一时间步上，获取多核处理器的状态数据，处理后得到状态值；

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于强化学习的异构多核处理器动态电压调节方法，其特征在于，包括以下步骤：

S2：设置动态电压调节指令，得到动作集；

2.根据权利要求1所述的基于强化学习的异构多核处理器动态电压调节方法，其特征在于，步骤S1中，所述多核处理器的状态数据包括处理器内部数据和处理器功耗数据，其中，所述处理器内部数据包括CPU频率、CPU时钟周期数、CPU执行的指令的数目、CPU一级指令缓存的读取及缺失次数，CPU一级数据缓存的读取，写回及缺失次数，CPU二级缓存的的读取，写回及缺失次数，CPU最后一级缓存的读取，写回及缺失次数，乘除法单元的执行次数和特殊指令的执行次数，所述处理器内部数据有读取CPU内部寄存器获得或通过软件测量获得，所述处理器外部数据包括CPU的瞬时功耗和CPU的平均功耗，所述处理器外部数据有功耗测量仪测量获得。

3.根据权利要求1所述的基于强化学习的异构多核处理器动态电压调节方法，其特征在于，步骤S1中所述多核处理器的状态数据经过离散化之后形成状态值：

s_t＝{s_t，1，s_t，2，…，s_t，n}

4.根据权利要求1所述的基于强化学习的异构多核处理器动态电压调节方法，其特征在于，步骤S2中所述动态电压调节指令包括上调CPU的频率、下调CPU的频率、提示操作系统迁移当前CPU当中的程序、关闭CPU核心和开启CPU核心，由下式表示：

a＝{a₁，a₂，…，a_n}

式中，n为动作集中动作的数量，a₁，a₂，...，a_n为不同的动态电压调节指令。

5.根据权利要求4所述的基于强化学习的异构多核处理器动态电压调节方法，其特征在于，所述智能体采用Q学习生成策略π来选择动态电压调节指令，所述Q学习生成策略π具体为：

观测状态：

s＝s_t＝{s_t，1，s_t，2，…，s_t，n}

Q(s，a)＝Q(s，a)+θ·{r+γ·max_a′[Q′(s′，a′)]-Q(s，a)}

其中θ和γ分别是学习率和奖励折扣因子。

6.根据权利要求5所述的基于强化学习的异构多核处理器动态电压调节方法，其特征在于，步骤S5中所述奖励的计算方法具体为：

r_t＝αT_{inst-throughtput}-βP_dynamic-μP_average

7.根据权利要求6所述的基于强化学习的异构多核处理器动态电压调节方法，其特征在于，步骤S7中动态电压调节是否达到预期效果时，将此事的Q值表存储至非易失性闪存里，等待上电后，通过CPU或者状态机对Q值表格进行读取。

8.根据权利要求7所述的基于强化学习的异构多核处理器动态电压调节方法，其特征在于，所述存储在非易失性闪存中的Q值表，先读取到随机存储RAM中，再从RAM中读取Q值至智能体状态机中。

9.根据权利要求8所述的基于强化学习的异构多核处理器动态电压调节方法，其特征在于，所述智能体状态机采用FPGA进行实现。

10.一种基于强化学习的异构多核处理器动态电压调节系统，其特征在于，所述系统基于权利要求1至9任一项所述的基于强化学习的异构多核处理器动态电压调节方法，包括：