CN116595879A

CN116595879A - 一种基于强化学习算法的微流控芯片散热方法及系统

Info

Publication number: CN116595879A
Application number: CN202310568852.XA
Authority: CN
Inventors: 徐文涛; 陈玮婷; 余甚鑫; 丁雨晨; 陈忞轩; 王少熙
Original assignee: Northwestern Polytechnical University; Taicang Yangtze River Delta Research Institute of Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University; Taicang Yangtze River Delta Research Institute of Northwestern Polytechnical University
Priority date: 2023-05-19
Filing date: 2023-05-19
Publication date: 2023-08-15

Abstract

本发明公开了一种基于强化学习算法的微流控芯片散热方法及系统。本发明方法包括以下步骤：S1、获取片上网络相关参数，对微流控通道中冷却速度进行初始化；S2、通过强化学习算法进行算法与强化学习环境的交互、算法的迭代训练；S3、以芯片处于正常工作温度范围内的功耗最小化为优化目标，对该强化学习算法的实际效果进行测试，根据测试结果更新参数。本发明系统与上述方法相对应。本发明可使每一层芯片的最高温度尽可能地与各自的理想温度接近，并在满足温度约束的同时智能地节省泵的功耗，减小微流控系统的能耗代价；此外，本发明能够达到防止芯片热量分布不均产生的热变形以及温度过高而导致其性能、寿命等受到的负面影响。

Description

一种基于强化学习算法的微流控芯片散热方法及系统

技术领域

本发明属于集成电路设计领域，尤其涉及一种基于强化学习算法的微流控芯片散热方法及系统。

背景技术

半导体工艺和技术的进步推动现代电子系统向高性能和微型化方向发展。随着集成电路集成度不断提高，三维集成电路逐渐发展成为当下集成电路的主要形式。但芯片的功率密度因为三维堆叠而急剧增加，芯片散热已经成为限制芯片性能释放的重要瓶颈。大规模集成电路功耗的急剧增加导致很高的工作温度和大的热梯度，从而导致严重的可靠性问题。在某些情况下，存在局部热梯度，甚至导致逻辑故障。所以，为了维持芯片正常运转而不至于超过其温度限制，如何有效地对芯片进行散热一直是一个重要问题。

常见的芯片散热方法可分为自然散热、风冷和液冷三种形式。对自然散热、风冷和液冷三种形式而言，液冷是最高效的散热方式。目前应用较为广泛的芯片液冷技术主要分为液体喷雾冷却技术、间接水冷板技术和微通道水冷技术等。液体喷雾冷却和间接水冷板等方式显然无法有效散出芯片多层堆叠后内部产生的热量。因此，微通道水冷技术是被认为散热能力较强的方式。

由于封装内散热效果强于封装外散热效果，因此在三维集成电路应用场景下，层间集成微通道液冷是一种可用于加强散热的很有前途且可扩展的解决方案。现有的层间微通道液冷技术如：紧凑型的硅集成电路水冷式集成散热器，集成微通道冷却的3D-IC技术，芯片进出口通孔和兼容热管相结合的芯片背面的微通道技术，循环嵌入式微流控通道芯片冷却技术，以及微流控互连集成技术等。总而言之，以上层间微通道液冷技术可以有效地消除多层集成电路的热点，保证其温度需求达到标准。但以上层间微通道液冷技术无法对水流速度做精细调节，并且在达到散热需求的同时会带来较大的能耗。

发明内容

本发明的目的在于提供一种基于强化学习算法的微流控芯片散热方法及系统，旨在解决现有的层间微通道液冷技术无法对水流速度做精细调节、并且达到散热需求的同时会带来较大的能耗的问题。

本发明是这样实现的，一种基于强化学习算法的微流控芯片散热方法，该方法包括以下步骤：

S1、获取片上网络相关参数，对微流控通道中冷却速度进行初始化；

S2、通过强化学习算法进行算法与强化学习环境的交互、算法的迭代训练；

S3、以芯片处于正常工作温度范围内的功耗最小化为优化目标，对该强化学习算法的实际效果进行测试，根据测试结果更新参数。

优选地，在步骤S1中，结合热模型部分中涉及到的参数与经验值，确定一组热模型的工艺参数值。

优选地，在步骤S2中，所述强化学习环境包括状态空间、动作空间、奖励函数以及对热模型；其中，

所述状态空间包括芯片的模块编号、芯片模块发热功率、1～n号水管的当前速度及模块通过冷却液后的平均温度；

所述动作空间为n个水道的水流速度变换，每个水道的变化包括速度增加1和减少1；

所述奖励函数公式为：R＝-V+γ(T^t-1-T^t)，γ＝β/|α|>0，其中，α、β为系数且α<0、β>0，γ的值可以根据具体所需情况进行界定，T^t-1-T^t为前一步芯片平均温度与当前芯片平均温度的差值，当水阀压强一定时，最终功率P∝V，V作为动态函数并简化为可知数值。

优选地，在步骤S2中，所述强化学习算法包括以下步骤：

M1、对强化学习环境进行调用，从中获得环境状态信息，包括状态空间、动作空间；

M2、根据状态决定动作的策略，分别为用来更新Q表的贪婪策略以及实际推进Q-Learning算法的贪婪策略；

M3、Q-Learning算法训练，用来不断更新Q表，在此模块中对上两个步骤M1、M2进行调用。

优选地，步骤S3包括以下具体步骤：

S31、调用强化学习算法代码训练出一较好的Q表；

S32、对该强化学习算法的实际效果进行测试，先设定一个片上网络需要达到的理想温度，然后随机生成微流泵驱动的冷却液速度，使其满足温度要求，将总消耗功率与强化学习的结果相比较；

S33、如果效果不佳则对算法代码进行改进，重新训练Q表，如果效果好，则证明算法相对有效，可以继续运用。

本发明进一步公开了一种基于强化学习算法的微流控芯片散热系统，该系统包括：

初始化模块，用于获取片上网络相关参数，对微流控通道中冷却速度进行初始化；

迭代训练模块，用于通过强化学习算法进行算法与强化学习环境的交互、算法的迭代训练；

测试模块，用于以芯片处于正常工作温度范围内的功耗最小化为优化目标，对该强化学习算法的实际效果进行测试，根据测试结果更新参数。

优选地，在初始化模块中，结合热模型部分中涉及到的参数与经验值，确定一组热模型的工艺参数值。

优选地，在迭代训练模块中，所述强化学习环境包括状态空间、动作空间、奖励函数以及对热模型；其中，

优选地，在迭代训练模块中，所述强化学习算法包括以下步骤：

优选地，所述测试模块包括：

调用模块，用于调用强化学习算法代码训练出一较好的Q表；

比较模块，用于对该强化学习算法的实际效果进行测试，先设定一个片上网络需要达到的理想温度，然后随机生成微流泵驱动的冷却液速度，使其满足温度要求，将总消耗功率与强化学习的结果相比较；

改进模块，用于如果效果不佳则对算法代码进行改进，重新训练Q表，如果效果好，则证明算法相对有效，可以继续运用。

本发明克服现有技术的不足，提供一种基于强化学习算法的微流控芯片散热方法及系统。本发明本质为引入强化学习算法，并对三维芯片每一层液体流速精确控制的层间微通道液冷技术，该层间微通道液冷技术可使每一层芯片的最高温度尽可能地与各自的理想温度接近，并在满足温度约束的同时智能地节省微流泵的功耗，减小微流控系统的能耗代价。

有关微流控散热系统模型的构建，本发明中以常见的硅基芯片为例进行研究，即认为平面上相同的结构通过一定的封装方式在竖直方向垛叠堆栈出完整的芯片结构。在本发明中，通过刻蚀单个芯片背面的微通道和TSV，对齐它们并通过键合工艺堆叠它们来构建微流控芯片的散热系统；本发明中芯片呈双端口直通道的空腔几何形状，从平面上看，表现为冷却液从芯片下方刻蚀的微通道中流过进行散热，每一束微流有着固定的进口和对应的唯一出口，冷却液流过的路径为两端确定的直线段。

需要说明的是，为了精确地控制水流的速度，使散热的效率最优化，本发明中每个微通道都有与之唯一对应的水泵来控制冷却液，即每条微通道的水流速度都是可以被单独控制的。进一步的，每一层微流控散热结构拥有独立的冷却系统与微流泵簇来构成高效稳定且易于精细调控的冷却液循环结构。

在本发明中，使用强化学习算法对于散热系统中的水泵进行详细控制，形成智能控制系统以调控微流泵的参数来优化散热能力。本领域可以调整的参数有冷却液的传热系数、水泵产生冷却液的流动速度、芯片中热单元的尺寸大小、基本热模型的构建方法等等，其中可操作性最强且影响最大的参数是冷却液的流速，因此，本发明主要针对冷却液流速的变化来控制微流控系统的散热能力。此外，本发明以微流控散热系统的功耗最小化为优化目标，保证芯片处于正常工作温度范围内的同时冷却液循环结构消耗最小的功率，使用强化学习算法来模拟并优化此过程。

本发明通过分离热单元后构建二电阻热模型并使用经典的电学公式简化传热问题，得到直观可调的参数矩阵来表征芯片的热状态，结合经典的电学理论欧姆定律可将热单元中的传热问题简化为分析热阻、温度与热流之间的函数关系。因此，本发明中基于热点离散化的前提，将芯片的温度离散在不同热点上作为观察参数；本发明中基于微流泵与微通道呈一一对应关系的前提，将所有微通道中的冷却液速度作为可控制参数；本发明中基于微流泵与微通道呈一一对应关系的前提，将冷却液循环系统消耗的功率之和作为额外观察参数。

在此基础上，本发明提出了基于强化学习算法的微流控芯片散热方法及系统，包括：获取片上网络相关参数，对微流控通道中冷却速度进行初始化；编写强化学习环境与算法代码，训练出较准确的Q表；对此强化学习算法实际效果进行测试，根据结果更新参数，以达到优化目标。

本发明通过强化学习方法(Q-learning)实现训练与测试相结合，给定一个基于芯片热模型参数的输入文件，该文件用于描述基本热模型中的拓扑结构、外部随机拟定的芯片热功率、优化的限制因素与目标条件以及设计参数；先结合热模型得到有效的参数表征与转换矩阵，再通过强化学习赋予奖励函数，以得到满足设计需求的最优路径。

在本发明中，强化学习算法主要由以下三个模块组成：

M1：对强化学习环境的调用，从中获得环境状态信息，包括状态空间、动作空间；

M2：根据状态决定动作的策略，分别为用来更新Q表的贪婪策略以及实际推进Q-Learning算法的ε贪婪策略；

M3：Q-Learning算法训练，用来不断更新Q表，在此模块中对上两个模块进行调用。

进一步的，Q-Learning算法是一种关于状态—动作值函数的强化学习方法，属于无模型学习，即无需对外部环境进行详细建模，只需要提供足够训练样本，通过智能体与环境交互得到最优策略。采用Q-Learning算法进行片上网络微流控控制，即能够在有效消除热点的同时，尽可能地使片上温度均衡，保障芯片工作效率，又能降低微流控散热系统的总功耗。

相比于现有技术的缺点和不足，本发明具有以下有益效果：本发明可使每一层芯片的最高温度尽可能地与各自的理想温度接近，并在满足温度约束的同时智能地节省泵的功耗，减小微流控系统的能耗代价；此外，本发明能够达到防止芯片热量分布不均产生的热变形以及温度过高而导致其性能、寿命等受到的负面影响，来达到充分释放cpu工作性能的目的。

附图说明

图1为根据本发明实施例中基于热模型抽象化处理的二电阻模型图；

图2为根据本发明实施例中基本热单元三维模型图；

图3为根据本发明实施例中包含液冷系统与智能控制系统的完整芯片结构剖面图；

图4为根据本发明实施例中可智能调控单层微流控散热结构三维模型图；

图5为根据本发明实施例中加入封装层次及液冷系统与智能控制系统的完整芯片结构的三维立体结构示意图(注：图中标注的泵即为控制冷却液的微流泵)；

图6为根据本发明实施例中完整芯片结构中垛叠的各层材料及规格的示意图；

图7为根据本发明方法实施例的步骤流程图；

图8是本发明系统实施例的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明的一个实施例以常见的硅基芯片为例，针对微流控散热系统模型的构建，首先构造出二电阻热模型，如附图1所示。本发明实施例中假定芯片上热点的拓扑结构均相同，可将芯片抽象为重复的热单元组合堆叠而成；结合经典的电学理论欧姆定律可将热单元中的传热问题简化为公式GT(t)＝U(t),其中热阻G，温度关于时间的函数T(t)以及热流关于时间的函数U(t)均为与热模型单元尺寸结构对应的矩阵形式。结合附图1可以看出，建立热模型时认为热单元中的热量流动都发生在等效出的热阻上，即传热过程都发生在图中所示的热阻上。值得一提的是，基于二电阻热模型可以有效地克服微通道尺寸的数量级与IC不匹配的问题，这是通过将3D IC中的整个微通道腔层均匀化为单一多孔介质来实现的。如附图2所示，可以看出微通道的横截面尺寸与IC是匹配的。结合附图1，通过将从侧壁进入的热量投影到顶壁和底壁来计算有效传热系数，可以更为便捷地得到传热矩阵中的参数。

关于热模型中重要的传热公式，本发明实施例中基于热点离散化的前提，将芯片的热功率离散在不同热点上作为热流矩阵的输入参数，结合强化学习算法可以设置芯片工作的随机功率作为状态参数，通过不断地学习迭代更新Q表，与环境交互得到最优的策略；需要说明的是，虽然传热公式中温度与热流都是与时间相关的函数，但是在强化学习的状态环境中选取的是处于稳态的温度及热流参数，即使用经过一段时间后系统热状态较为稳定的某一时刻的参量作为一次动作的状态结果。

以上是关于基本热单元模型建立的阐述。进一步的，本发明实施例中整体的芯片模型如附图5及附图6所示。可以看出在常规封装的芯片结构中，针对需要进行散热的硅层，本发明实施例中采用了多层方向相互垂直的微通道进行散热，并且通过智能控制系统来精确控制每一层上微流泵簇的参数以优化出最佳的状态。其中每一层的微流控散热结构如附图4所示。在图4中略去了封装层与BEOL层，仅分析描述单层的微流控散热结构与相应的冷却液循环系统。对于n*n热单元组合形成的单层微流控散热结构，微流泵簇驱动的冷却液流过贯穿于硅衬底层的微通道来发挥散热的功能，并且在流出IC后会进入液冷系统被降温，经由智能控制系统的调控准备进行下一个散热循环。值得一提的是，如附图4所示，微通道并不影响芯片封装中的TSV，在芯片结构中主要发挥散热的作用，不会干扰芯片正常的工作。附图3中展示了实施例中完整芯片模型的剖面结构，可以看出在芯片周围有液体冷却系统以确保流入微通道的冷却液温度一定；依靠每层微流控散热结构的微流泵簇驱动冷却液流过硅层下刻蚀的微通道，发挥散热的功能。需要说明的是，冷却液在这一过程中完成了循环流动，在与芯片上的热点完成热量交换后重新进入液冷系统中被降温冷却，这一循环是被强化学习算法智能学习控制的。

下面参照附图描述根据本发明实施例提出一种基于强化学习算法的微流控芯片散热方法，如附图7所示，该方法包括以下步骤：

在步骤S1中，获取片上网络相关参数，对微流控通道中冷却速度进行初始化，结合热模型部分中涉及到的参数与经验值，确定一组热模型的工艺参数值。工艺参数如下：

AW：实际的湿润表面面积；

AP：从湿润表面传递热量的投影面积；

K：冷却液的热导率；

Nu：微流的努塞尔数；

AR：通道的纵横比；

Re：微流的雷诺数；

Pr：微流的普朗特数；

Hconv：有效传热系数；

Heff：表面换热系数。

S2、通过强化学习算法(Q-learning算法)进行算法与强化学习环境的交互、算法的迭代训练

在步骤S2中，编写强化学习环境代码，包括状态空间S_t、动作空间A_t、奖励函数以及对热模型的实现；具体的，状态空间包括芯片的模块编号Num{j}、芯片模块发热功率Pd{j}、1～n号水管的当前速度V^t{i}及模块通过冷却液后的平均温度T^t，其中j是热单元模块的编号，i是水道的编号。

S_t＝{Num{j},Pd{j},V^t{i},T^t}，j＝1,2…N,i＝1,2…n；

动作空间为n个水道的水流速度变换，每个水道的变化包括速度增加1和减少1。

A_t＝{u{i},d{i}|i∈{1,2…n}}

其中，u{i}表示第i个水管增加水流速度，d{i}表示第i个水管减少水流速度。

为了使奖励函数和动作有更好的关联，本发明实施例将V^t{i}而不是最终功率P设为奖励函数的重要参数；

由于当水阀压强一定时，P∝V，且V作为动态函数，要比P作为静态函数更好反映系统变化，因此使用V作为参数可以更好的反应本发明所需求的奖励函数与最终功率之间的关系。

为了将温度的优化也考虑进奖励函数之中，本发明实施例将前一步的芯片平均温度与当前平均温度的差值T^t-1-T^t作为另一个奖励函数的参数作为考虑项。

因此本发明实施例可以列出奖励函数公式：R＝αV+β(T^t-1-T^t)，其中α、β为系数，本发明期望总功率小和最终温度更低，因此可以使得α<0、β>0且两者之间存在关系。

从公式的简洁角度出发，本发明实施例可以使水流每次变化的大小也为1单位，这个单位可以取得足够小以保证本发明不会因为水流速度的变化过大导致本发明错过一个足够大的奖励值，这样可以使得本发明的奖励函数中的V作为一个可知的数字参与公式，因此可以将奖励公式进一步简化为：

R＝-V+γ(T^t-1-T^t)；

其中，γ＝β/|α|>0。

需要指明的是，γ的值可以根据具体所需情况进行界定，如对温度的需求是否明确、对能耗的要求是否严格来界定。

在步骤S2中，拟定强化学习算法流程，在其中实现算法与强化学习环境的交互、算法的迭代训练；

具体的，该强化学习算法包括以下步骤：

该强化学习算法的Q表训练过程为：

(1)初始化Q表，所有Q值赋值为0；

(2)for i inrange(num)(共训练num回合)；

(3)S_t←重置强化学习环境得到初始状态；

(4)A_t←根据初始状态选择的随机动作；

(5)终止信息←False；

(6)调用强化学习环境中的step函数得到下一个状态S_t+1、奖励值R、终止信息、调试信息；

(7)while终止信息＝＝False and算法步数<20

(8)Q(S_t，A_t)←Q(S_t，A_t)+α[R+γmax_a(S_t+1，a)-Q(S_t，A_t)](根据贪婪策略更新Q表)；

(9)A_t+1←根据ε贪婪策略选择S_t+1的动作；

(10)调用强化学习环境中的step函数；

(11)算法步数+1；

(12)return训练后的Q表。

其中，上述步骤M3包括以下具体过程：

算法：Q-Learning；

输入：算法训练回合次数num、Q值更新所需参数α、ε贪婪策略中参数ε；

输出：训练后的Q表(即训练后的所有Q值的集合，Q值表示的是状态，动作对应的值，也就是在当前状态下采取动作能带来的价值。Q表中通过迭代状态得到每一个状态St下的动作值At与奖励值R，整个优化过程中更新迭代得到的这些值即为所有Q值的集合)。

S3、以芯片处于正常工作温度范围内的功耗最小化为优化目标，对该强化学习算法的实际效果进行测试，根据测试结果更新参数

在步骤S3中，包括以下具体步骤：

S31、调用强化学习算法代码训练出一较好的Q表；

本发明进一步提供了一种基于强化学习算法的微流控芯片散热系统，如图8所示，该系统包括：

初始化模块1，用于获取片上网络相关参数，对微流控通道中冷却速度进行初始化；

迭代训练模块2，用于通过强化学习算法进行算法与强化学习环境的交互、算法的迭代训练；

测试模块3，用于以芯片处于正常工作温度范围内的功耗最小化为优化目标，对该强化学习算法的实际效果进行测试，根据测试结果更新参数。

在本发明实施例中，所述测试模块具体包括：

调用模块，用于调用强化学习算法代码训练出一较好的Q表；

以上述微流控芯片散热的实施过程和效果同样解释本发明微流控芯片散热系统的实施过程和效果，在此不再赘述。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于强化学习算法的微流控芯片散热方法，其特征在于，该方法包括以下步骤：

2.如权利要求1所述的微流控芯片散热方法，其特征在于，在步骤S1中，结合热模型部分中涉及到的参数与经验值，确定一组热模型的工艺参数值。

3.如权利要求1所述的微流控芯片散热方法，其特征在于，在步骤S2中，所述强化学习环境包括状态空间、动作空间、奖励函数以及对热模型；其中，

4.如权利要求1所述的微流控芯片散热方法，其特征在于，在步骤S2中，所述强化学习算法包括以下步骤：

5.如权利要求1所述的微流控芯片散热方法，其特征在于，步骤S3包括以下具体步骤：

S31、调用强化学习算法代码训练出一较好的Q表；

6.一种基于强化学习算法的微流控芯片散热系统，其特征在于，该系统包括：

7.如权利要求6所述的系统，其特征在于，在初始化模块中，结合热模型部分中涉及到的参数与经验值，确定一组热模型的工艺参数值。

8.如权利要求6所述的系统，其特征在于，在迭代训练模块中，所述强化学习环境包括状态空间、动作空间、奖励函数以及对热模型；其中，

9.如权利要求6所述的系统，其特征在于，在迭代训练模块中，所述强化学习算法包括以下步骤：

10.如权利要求6所述的系统，其特征在于，所述测试模块包括：

调用模块，用于调用强化学习算法代码训练出一较好的Q表；