CN116860097B - 一种3d芯片的自适应电源管理方法 - Google Patents

一种3d芯片的自适应电源管理方法 Download PDF

Info

Publication number
CN116860097B
CN116860097B CN202311120288.1A CN202311120288A CN116860097B CN 116860097 B CN116860097 B CN 116860097B CN 202311120288 A CN202311120288 A CN 202311120288A CN 116860097 B CN116860097 B CN 116860097B
Authority
CN
China
Prior art keywords
temperature
chip
module
voxel
backup
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311120288.1A
Other languages
English (en)
Other versions
CN116860097A (zh
Inventor
王嘉诚
张少仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongcheng Hualong Computer Technology Co Ltd
Original Assignee
Zhongcheng Hualong Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongcheng Hualong Computer Technology Co Ltd filed Critical Zhongcheng Hualong Computer Technology Co Ltd
Priority to CN202311120288.1A priority Critical patent/CN116860097B/zh
Publication of CN116860097A publication Critical patent/CN116860097A/zh
Application granted granted Critical
Publication of CN116860097B publication Critical patent/CN116860097B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/263Arrangements for using multiple switchable power supplies, e.g. battery and AC
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/28Supervision thereof, e.g. detecting power-supply failure by out of limits supervision
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Power Engineering (AREA)
  • Power Sources (AREA)

Abstract

本发明公开了一种3D芯片的自适应电源管理方法,属于集成电路技术领域,包括以下步骤:步骤1,确定所述3D芯片中的多位置跨层冗余备份策略;步骤2,训练3D芯片的温度预测模型;步骤3,实时监测3D芯片的每一体素的温度,确定下一时间步的各个体素的预测温度,并在检测到存在预测温度存在热异常的体素时,触发冗余备份模块的激活流程;步骤4,基于预测温度选择备份模块进行激活;步骤5,基于冗余备份调整后的模块工作情况动态调整每一层的电源分配;不断执行步骤3至步骤5。本发明可以有效解决3D芯片的温度和电源管理问题,提高芯片的性能和寿命,降低能耗。

Description

一种3D芯片的自适应电源管理方法
技术领域
本发明属于集成电路技术领域,尤其涉及一种3D芯片的自适应电源管理方法。
背景技术
随着微电子技术的发展,三维集成电路(3DIC)因其高密度集成、短电路互连和低功耗等优势,得到了广泛的关注和应用。然而,3DIC的特性,如高集成度和短电路互连,也带来了一些新的挑战,其中之一就是热管理和电源管理问题。
在3DIC中,由于各层模块靠得非常近,散热难度大,容易导致内部温度过高,影响了3DIC的性能和寿命。同时,不同的模块对电源的需求可能会不同,需要进行精细化的电源管理,以确保各层的电源分配合理,同时保持整体的电源使用和热量产生在可接受的范围内。
现有的电源管理策略主要包括静态电源管理和动态电源管理。静态电源管理主要在设计阶段,根据模块的工作负载和电源需求,预先分配电源。这种策略简单且易于实施,但由于无法根据实时的工作负载和温度状况进行调整,往往无法达到最优的电源使用效率。动态电源管理则依据实时的工作负载和温度状况,动态调整电源分配,可以提高电源使用效率,但实施起来更加复杂。
因此,如何设计一种可以实时管理和监测3DIC的温度和电源,提高3DIC的性能和寿命,降低能耗,是当前3DIC电源管理技术的亟待解决的问题。
发明内容
针对上述现有技术中存在的缺陷,本发明提供一种3D芯片的自适应电源管理方法,所述方法包括以下步骤:
步骤1,确定所述3D芯片中的多位置跨层冗余备份策略;
步骤2,基于深度学习算法,训练所述3D芯片的温度预测模型,所述温度预测模型用于预测未来一段时间内,3D芯片内各体素的可能温度,所述体素是3D芯片内的模块;
步骤3,基于实时热管理和监测系统实时监测3D芯片的每一体素的温度,并基于实时温度确定下一时间步的各个体素的预测温度,并在检测到存在预测温度存在热异常的体素时,触发冗余备份模块的激活流程;
步骤4,基于预测温度选择备份模块进行激活;
步骤5,基于冗余备份调整后的模块工作情况动态调整每一层的电源分配;
不断执行步骤3至步骤5实现对3D芯片温度和电源的持续优化管理。
其中,所述热异常的体素为温度超过预设工作温度阈值的体素;
所述预设工作温度阈值对3D芯片内的各模块相同或不同。
其中,所述3D芯片的多位置跨层冗余备份策略,包括:
对3D芯片中每一层的关键功能模块进行冗余备份,并将备份模块分布在整个芯片的不同层和不同位置中;
其中,多位置跨层冗余备份策略包括:
将主模块放在底层,而将备份模块放在上层;
在每一层内,备份模块应均匀地分布;
在多层之间,备份模块的位置错开。
其中,基于3D-CNN算法训练温度预测模型。
其中,所述基于3D-CNN算法训练温度预测模型,包括:
收集相关的数据,包括:
操作数据:每个体素或模块在运行过程中的操作数据,包括工作负荷、运行频率和任务类型;
功耗数据:每个体素在运行过程中的功耗数据;
温度数据:每个体素在运行过程中的当前温度数据;
用收集的数据训练模型。
其中,所述基于实时热管理和监测系统实时监测3D芯片的每一层的温度,包括:
在3D芯片的每一层都部署温度传感器,以实时监测每个体素的温度;
定期读取和记录所有传感器的读数,并将这些读数到3D-CNN模型所在的温度预测模块进行温度预测的处理;
3D-CNN模型接收并处理来自温度监控系统的数据,预测每个体素在下一个时间步的温度,并将这些预测结果发送回温度监控系统;
温度监控系统判断体素的预测结果是否存在任何热异常,如果某个体素的预测温度高于预设工作温度阈值,则该体素存在热管理异常的问题,需要调整电源管理策略。
其中,一旦检测到热异常,所述温度监控系统向热异常处理模块发送热异常触发信号,热异常处理模块启动备份模块并将出现热管理问题的体素的功能复制到所述备份模块。
其中,确定备份模块时,将初步筛选的备份体素点位的多维3D输入数据输入至温度预测模型,并基于温度预测模型的输出结果来判断所述备份体素点位是否符合热管理的预期要求;
在得到了所有合格的备份体素点位以后,基于通信延迟来确定最优的备份体素点位。
其中,基于预期的体素温度分布,初步筛选出评分高于阈值的体素,所述评分根据如下公式进行计算:
其中:
Score:体素的评分;
T:体素的预期温度,为步骤3中基于实时温度确定下一时间步的对应体素的预测温度;
t_scale:用来调整T的影响范围,t_scale是一个正数;
A:对应体素的激活总时长;
a_scale:用来调整A的影响范围,a_scale是一个正数;
f(A):用于调整当A超过阈值A_max时,对A的影响的函数;
H:体素周围的温度分布;
H_function(H):用于描述体素周围的温度分布对评价体素质量或适用性的影响的函数。
其中,H_function(H)的计算公式如下:
其中,
H_avg:体素周围的平均温度;
H_max:体素周围的最高温度;
w1和w2:分别代表了H_avg和H_max在温度分布评价中的重要性的权重;
h_scale:用来调整温度分布的影响范围的正数。
其中,f(A)的计算公式为:
在上述f(A)的计算公式中,当A<=A_max,f(A)将接近于1;
当A增大,f(A)将渐渐增大;
以及通过改变参数k来调整A超过A_max时增长的速率。
其中,选择备份模块进行激活,包括:
在备份模块中复制原模块的功能;
关闭原模块的电源,停止其运行;
启用备份模块,使其开始运行。
所述原模块为预期发生热异常的体素对应的模块,所述备份模块为基于冗余备份策略从至少一个热异常模块的备份模块选择的备份模块。
其中,基于冗余备份调整后的模块工作情况动态调整每一层的电源分配,包括:
通过模块负载和性能数据分析来确定模块的电源需求;
根据负载和性能数据预测模块的电源需求;
根据预测的电源需求调整电源分配,包括根据所有激活模块在芯片内的位置或层级,以及所有激活模块的电源需求,通过使用DVFS技术动态地调整每一层的电源分配。
本发明通过实时热管理和监测,可以及时检测和调整芯片的温度,防止芯片过热,从而保护芯片,提高其工作稳定性和寿命。同时,通过自适应电源管理,可以根据实时的工作负载和温度情况,动态调整各层的电源分配,以保持电源使用和热量产生在可接受的范围内,从而提高电源使用效率,降低能耗。在性能上,通过对冗余备份模块的激活,可以在某个模块出现问题时,迅速切换到备份模块,保证芯片的持续可用性,从而提高系统的性能和可靠性。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,并且相同或对应的标号表示相同或对应的部分,其中:
图1是示出根据本发明实施例的一种3D芯片的自适应电源管理方法的流程图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述……,但这些……不应限于这些术语。这些术语仅用来将……区分开。例如,在不脱离本发明实施例范围的情况下,第一……也可以被称为第二……,类似地,第二……也可以被称为第一……。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者装置中还存在另外的相同要素。
在3D芯片中,由于3D集成电路将各个层堆叠在一起,所以比传统的2D集成电路产生更多的热量。这种热量的积累可能导致严重的散热问题,降低性能,甚至损坏设备。热管理问题对电源管理策略的制定产生了巨大影响。3D芯片的自适应电源管理方法旨在解决在现有技术中,3D芯片由于模块密度高、热耗散问题严重等因素,导致芯片内部温度过高,可能对芯片的工作性能和寿命产生负面影响的问题。
如图1所示,本发明公开了一种3D芯片的自适应电源管理方法,所述方法包括:
步骤1,确定所述3D芯片中的多位置跨层冗余备份策略。
步骤2:基于深度学习算法,训练所述3D芯片的温度预测模型,所述温度预测模型用于预测未来一段时间内,3D芯片内各体素的可能温度,所述体素可以是3D芯片内的模块。
步骤3:实时热管理和监测,包括基于实时热管理和监测系统实时监测3D芯片的每一体素的温度,并基于实时温度确定下一时间步的各个体素的预测温度,并在检测到存在预测温度存在热异常的体素时,触发冗余备份模块的激活流程。
步骤4:冗余备份模块的激活,包括基于预测温度选择备份模块进行激活。
步骤5:自适应电源管理,包括基于冗余备份调整后的模块工作情况动态调整每一层的电源分配,以达到热平衡。
不断执行步骤3至步骤5,以实现对3D芯片温度和电源的持续优化管理。
通过这种自适应电源管理方法,可以有效地管理3D芯片的温度,提高其性能和稳定性。
由于3D芯片的模块密度较高,热耗散问题较为严重,容易导致芯片过热。过高的温度可能对芯片的工作性能和稳定性产生负面影响,甚至导致芯片的故障。且在3D芯片中,由于各层的电源需求可能会有所不同,需要进行精细化的电源管理,以确保各层的电源分配合理,同时保持整体的电源使用在可接受的范围内。
本发明通过跨层和多位置冗余备份、基于预测温度的自适应电源管理以及功能复制,更好地平衡了3D芯片的性能和稳定性。根据芯片的运行状态动态调整电源供应的3D芯片中具有相同功能的模块,将热管理和自适应电源管理相结合,通过对不同层的相同功能模块进行冗余备份,及时响应温度的变化,降低温度对3D芯片性能的影响。
因此,本发明通过实时热管理和监测,可以及时检测和调整芯片的温度,防止芯片过热,从而保护芯片,提高其工作稳定性和寿命。同时,通过自适应电源管理,可以根据实时的工作负载和温度情况,动态调整各层的电源分配,以保持电源使用和热量产生在可接受的范围内,从而提高电源使用效率,降低能耗。在性能上,通过对冗余备份模块的激活,可以在某个模块出现问题时,迅速切换到备份模块,保证芯片的持续可用性,从而提高系统的性能和可靠性。
在某一实施例中,所述热异常的体素为温度超过预设工作温度阈值的体素。所述预设工作温度阈值对3D芯片内的各模块可以相同或不同。
在某一实施例中,对3D芯片设计多位置跨层冗余备份策略,包括对3D芯片中每一层的关键功能模块进行冗余备份,并将备份模块分布在整个芯片的不同层和不同位置中,以最大程度地分散可能的热点。
其中,通过对3D芯片的温度预测,有助于提前做好备份激活和功能复制的准备,以更早地处理可能的热问题,提升电源管理的效果。
在某一实施例中,冗余备份设计涉及到选择备份模块,以及确定它们在芯片中的分布。备份模块的选择通常基于模块的重要性和故障可能性。关键功能模块,如处理器核心、内存单元、输入/输出接口等,由于其对整个系统性能和稳定性的重要性,通常需要进行冗余备份。备份模块的分布策略通常是将它们均匀地散布在芯片的各层和位置,以减小单一区域的热负载。
确定关键功能模块的方法通常是基于它们对系统性能和稳定性的影响。例如,处理器核心、内存单元和输入/输出接口等模块通常被视为关键功能模块,这些模块对整个系统的运行至关重要。此外,对于其他与3D芯片应用场景中计算相似度高的模块,以及功耗高的模块,也可能因为计算负载高产生较高热量,需要作为关键功能模块进行冗余备份。即需要对最有可能发生热异常的关键模块进行冷备。
通过冗余备份,备份模块为原模块的复制,与复制开始时刻的原模块的运行状态保持一致,以确保在原模块出现故障或过热时,备份模块能尽快接管工作。
在某一实施例中,在3D芯片的冗余备份中,需要选择冗余模块的位置,包括:
首先,需要根据系统的要求和关键性能指标,确定需要进行冗余备份的模块。对系统性能影响较大的模块,如CPU核、内存单元等,都需要进行冗余备份。此外对于热点模块,也应该进行冗余备份,以便在其过热时可以转移到冷备模块。
在确定了需要备份的模块后,可以进行热模拟分析。通过热模拟,可以预测出各个模块在运行过程中可能产生的热量,以及热量在芯片内部的传播路径和速度。
在3D芯片中,由于热量主要向上传播,因此,备份模块的位置选择的策略包括:
尽可能将主模块放在底层,而将冷备模块放在上层。这样,当底层的模块过热时,可以快速切换到上层的冷备模块,从而将热量快速向上分散。
在每一层内,备份模块应尽可能均匀地分布,以便在任意位置出现热点时,都可以有附近的冷备模块可供切换。
在多层之间,备份模块的位置应尽可能错开。这样,当某一层的某个位置过热时,可以选择其他层的冷备模块,或者选择同一层其他位置的冷备模块,从而实现热量在多层和多位置之间的快速分散。
通过上述选择冗余模块的位置的策略可以实现最大程度的分散热点的效果。
在某一实施例中,基于深度学习算法,训练所述3D芯片的温度预测模型,包括使用3D-CNN模型进行温度预测。所述3D-CNN模型基于实时温度确定下一时间步的预测温度。
在某一实施例中,基于3D-CNN算法训练温度预测模型,包括:
步骤s1:收集相关的数据,包括:
操作数据:每个体素(模块)在运行过程中的操作数据,包括工作负荷、运行频率和任务类型。
功耗数据:每个体素在运行过程中的功耗数据。
温度数据:每个体素在运行过程中的当前温度数据。
步骤s2:对收集的数据进行预处理,包括数据清洗、数据标准化、特征选择等步骤。
步骤s3:基于3D-CNN算法进行3D芯片内体素或模块的温度预测。
步骤s4:用收集的数据训练模型。在训练过程中,使用MSE(Mean Squared Error)作为损失函数,评估模型的预测精度。同时使用早停(Early Stopping)策略,防止模型过拟合。
在某一实施例中,把3D芯片内各体素的操作数据、功耗数据和当前温度设置为三个独立的3D向量,利用3D-CNN模型来处理这些数据。以下以一个具体的输入输出示例进行说明:
3D-CNN模型的输入:
工作负荷:这是一个标量,表示该体素在当前时间步的工作负荷。表示为当前模组需要执行的任务数量。
运行频率:这是一个标量,表示该体素在当前时间步的运行频率。表示为当前模组的时钟频率。
任务类型:这是一个多维向量,表示在当前时间步,该体素正在执行的各种任务类型的情况。定义一个任务类型向量,其中每个元素表示一种特定类型的任务(如图形处理、数据处理等)的执行情况。对于任务类型,因为它是一个多维向量,所以在实际实现中需要对它进行一定的编码或者转换,以将它转换为一个能够输入到模型的形式。
功耗状态:这是一个标量,表示该体素在当前时间步的功耗状态。
当前温度:这是一个标量,表示该体素在当前时间步的温度。
因此,3D-CNN模型的输入是五个10x10x10的三维矩阵,分别对应工作负荷、运行频率、任务类型、功耗状态和当前温度。
3D-CNN模型的输出:
模型的输出是一个10x10x10的三维矩阵,表示每个体素在下一个时间步的预测温度。
通过这种高维度的输入的数据结构,3D-CNN模型可以同时基于操作数据、功耗数据和当前温度预测下一时间步的各体素温度,从而更准确地预测出每个体素在未来的温度,基于利用3D芯片的结构信息,从而提高预测的准确性和可靠性。
在某一实施例中,在步骤3中,基于实时热管理和监测系统实时监测3D芯片的每一层的温度,涉及到硬件和软件的协作,包括:
在3D芯片的每一层都部署温度传感器,以实时监测每个体素的温度。所述温度传感器可以通过硬件总线(比如I2C或SPI)将读数发送到一个集中的温度监控系统。所述温度监控系统可以是一个专门的硬件模块,也可以是一部分的操作系统或固件。它需要定期读取和记录所有传感器的读数,并将这些读数到3D-CNN模型所在的温度预测模块进行温度预测的处理。
3D-CNN模型接收并处理来自温度监控系统的数据,预测每个体素在下一个时间步的温度,并将这些预测结果发送回温度监控系统。
温度监控系统判断体素的预测结果是否存在任何热异常。如果某个体素的预测温度高于预设工作温度阈值,则该体素存在热管理异常的问题,需要调整电源管理策略。
在某一实施例中,一旦检测到热异常,所述温度监控系统向热异常处理模块发送热异常触发信号,热异常处理模块启动备份模块并将出现热管理问题的体素的功能复制到这个备份模块。
在某一实施例中,热异常处理模块接收来自温度监控系统的热异常触发信号。所述热异常触发信号中包含出现热管理问题的体素的坐标和状态,以便热异常处理模块基于所述热管理问题的体素的坐标和状态确定需要启动哪个备份模块,以及确定复制哪个体素的功能。
热异常处理模块启动相应的备份模块。
启动备份模块后,热异常处理模块需要将出问题的体素的功能复制到这个备份模块。
在某一实施例中,在硬件级别,一旦检测到故障异常,硬件需要能够发送一个故障信号。这个信号用于触发故障转移过程。所述故障信号可以是热异常触发信号。
在故障转移过程中,硬件需要能够保存出问题的体素的状态,并在备份模块上恢复这个状态。将出问题的体素的状态和数据通过DMA传输机制来实现迁移到备份模块。
硬件需要将新的计算任务分配给备份模块。基于操作系统或固件的支持调整任务调度策略,以便将新的计算任务分配给备份模块。
在某一实施例中,确定备份模块时,将初步筛选的体素点位的多维3D输入数据输入至温度预测模型,并基于温度预测模型的输出结果来判断所述备份体素点位是否符合热管理的预期要求;在得到了所有合格的备份体素点位以后,基于通信延迟来确定最优的备份体素点位。
即确定冗余备份模块时,初步筛选出更有可能得到最优结果的点位输入3D-CNN,并基于3D-CNN的输出结果来判断该体素点位是否符合热管理的预期要求,得到了所有合格的体素点位以后,基于通信延迟来确定最优的备份体素点位。
在某一实施例中,通过筛选和评估步骤来确定最优的备份体素点位,包括:
基于3D-CNN模型和当前的操作数据、功耗数据以及当前温度,预测下一时间步的所有体素的温度,获得3D芯片内预期的体素温度分布。
基于预期的体素温度分布,初步筛选出评分高于某个阈值的体素。
对于初步筛选出的体素点位,使用3D-CNN模型预测它们作为备份体素点位在开始工作后可能的温度,进一步筛选出在开始工作后其预期温度仍然低于安全温度阈值的体素。
对于进一步筛选出的体素,通过评估各备份体素与其他模块之间的通信延迟。
根据通信延迟选择最优的备份体素,包括选择与其他模块之间通信延迟最低的一个备份体素点位作为最优的备份体素点位,将该备份体素点位所在位置对应的模块作为热管理异常模块的备份模块。
在某一实施例中,对于预期温度仍然低于安全温度阈值的体素,所述安全温度阈值设置为低于预设工作温度阈值的数值。
在某一实施例中,基于预期的体素温度分布,初步筛选出评分高于某个阈值的体素,所述评分根据如下公式进行计算:
其中:
Score:体素的评分;
T:体素的预期温度,为步骤3中基于实时温度确定下一时间步的对应体素的预测温度。
t_scale:用来调整T的影响范围,t_scale是一个正数。
A:对应体素的激活总时长。
a_scale:用来调整A的影响范围,a_scale是一个正数。
f(A):用于调整当A超过阈值A_max时,对A的影响的函数。
H:体素周围的温度分布。
H_function(H):用于描述体素周围的温度分布对评价体素质量或适用性的影响的函数。
Score的定义是基于体素的预期温度T,体素周围的温度分布H和体素的激活总时长A。因此,一个理想的体素应该有较低的预期温度,良好的周围温度分布,以及较短的激活总时长,这就会使得Score较高。因此,Score越高表示该体素更适合被激活或选中。
在某一实施例中,H_function(H)的计算公式如下:
其中,
H_avg:体素周围的平均温度。这是从体素周围的温度分布H中计算得出的。
H_max:体素周围的最高温度。这也是从体素周围的温度分布H中计算得出的。
w1和w2:分别代表了H_avg和H_max在温度分布评价中的重要性的权重。
h_scale:用来调整温度分布的影响范围的正数,如果h_scale更大,那么H_avg和H_max的影响就会更小,反之亦然。
在某一实施例中,f(A)的计算公式为:
在上述f(A)的计算公式中,当A<=A_max,f(A)将接近于1。然而,当A增大,f(A)将渐渐增大。通过改变参数k来调整A超过A_max时增长的速率。k值越大,增长越快。
在某一实施例中,确定热异常的体素和选择的冷备模块对应的体素。对于每个被选择的冷备份体素,生成反映其状态的输入数据。对步骤3的输入数据进行修改和替换,包括找到对应于热异常体素的位置,保留当前温度,修改工作负荷、运行频率、任务类型、功耗状态为0,需要在多通道的体素网格中找到对应的位置并替换数据。对于冷备体素,将其相关的所有数据设置为对应冷备份体素的数据,具体为保留当前温度,修改工作负荷、运行频率、任务类型、功耗状态为反映冷备状态预期工作状态的输入数据。
将更新后的输入数据提供给3D-CNN模型,并再次运行模型,预测新的温度分布,用于步骤4中进行冗余备份的选择确定。
在某一实施例中,评估各备份体素与其他模块之间的通信延迟,即评估备份体素与有通信需求的其他模块之间的总传输时间。
首先,确定通信路径,包括确定哪些模块会与备份模块进行通信。
对于每一个与冷备份模块通信的模块,计算传输时间。
对每个模块到冷备份模块的传输时间相加,得到冷备份模块与所有其他模块之间的总传输时间即总通信延迟。对于每一个冷备份模块,计算其总通信延迟。然后比较这些延迟,选择延迟最小的模块作为最优的冷备份模块。
在某一实施例中,总传输时间的计算公式如下:
总传输时间=∑((数据量_i/传播速度)布线长度_i),对于i=1到n;
其中,"数据量_i"是从备份模块到第i个模块的单位时间传输的数据量,"传播速度"是电信号在导线中的传播速度,"布线长度_i"是备份模块到第i个模块的实际布线距离,"n"是与备份体素有通信需求的模块的数量。
在铜导线中,电磁波的传播速度稍慢,约为光速的2/3,即200,000公里/秒。
在某一实施例中,在3D集成电路(IC)环境中,选择备份模块进行激活,包括:
在备份模块中复制原模块的功能。这可能涉及硬件配置或软件编程,以确保备份模块可以执行与原模块相同的任务。
关闭原模块的电源,停止其运行。这可能涉及向原模块发送电源关闭信号,或者调整电源管理系统的设置,以停止向原模块提供电源。
启用备份模块,使其开始运行。这可能涉及向备份模块发送电源开启信号,或者调整电源管理系统的设置,以开始向备份模块提供电源。
原模块为预期发生热异常的体素对应的模块。备份模块为基于冗余备份策略从至少一个热异常模块的备份模块选择的备份模块。
在某一实施例中,在3D集成电路(IC)环境中,基于动态电压和频率调整(DVFS)技术进行电源管理调整,以优化模块的电源使用。在实施电源管理调整时,包括如下过程:
通过模块负载和性能数据分析来确定模块的电源需求。根据负载和性能数据预测模块的电源需求。根据预测的电源需求调整电源分配。在3DIC环境中,需要根据所有激活模块在芯片内的位置或层级,以及所有激活模块的电源需求,通过使用DVFS技术动态地调整每一层的电源分配。
本发明通过实时热管理和监测,可以及时检测和调整芯片的温度,防止芯片过热,从而保护芯片,提高其工作稳定性和寿命。同时,通过自适应电源管理,可以根据实时的工作负载和温度情况,动态调整各层的电源分配,以保持电源使用和热量产生在可接受的范围内,从而提高电源使用效率,降低能耗。在性能上,通过对冗余备份模块的激活,可以在某个模块出现问题时,迅速切换到备份模块,保证芯片的持续可用性,从而提高系统的性能和可靠性。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
以上介绍了本发明的较佳实施方式,旨在使得本发明的精神更加清楚和便于理解,并不是为了限制本发明,凡在本发明的精神和原则之内,所做的修改、替换、改进,均应包含在本发明所附的权利要求概括的保护范围之内。

Claims (12)

1.一种3D芯片的自适应电源管理方法,所述方法包括以下步骤:
步骤1,确定所述3D芯片中的多位置跨层冗余备份策略;
步骤2,基于深度学习算法,训练所述3D芯片的温度预测模型,所述温度预测模型用于预测未来一段时间内,3D芯片内各体素的可能温度,所述体素是3D芯片内的模块;
步骤3,基于实时热管理和监测系统实时监测3D芯片的每一体素的温度,并基于实时温度确定下一时间步的各个体素的预测温度,并在检测到存在预测温度存在热异常的体素时,触发冗余备份模块的激活流程;
步骤4,基于预测温度选择备份模块进行激活;
步骤5,基于冗余备份调整后的模块工作情况动态调整每一层的电源分配;
不断执行所述步骤3至步骤5实现对3D芯片温度和电源的持续优化管理;
其中,所述3D芯片的多位置跨层冗余备份策略,包括:
对3D芯片中每一层的关键功能模块进行冗余备份,并将备份模块分布在整个芯片的不同层和不同位置中;
其中,多位置跨层冗余备份策略包括:
将主模块放在底层,而将备份模块放在上层;
在每一层内,备份模块应均匀地分布;
在多层之间,备份模块的位置错开。
2.如权利要求1所述的一种3D芯片的自适应电源管理方法,其特征在于,
所述热异常的体素为温度超过预设工作温度阈值的体素;
所述预设工作温度阈值对3D芯片内的各模块相同或不同。
3.如权利要求1所述的一种3D芯片的自适应电源管理方法,其特征在于,
基于3D-CNN算法训练温度预测模型。
4.如权利要求3所述的一种3D芯片的自适应电源管理方法,其特征在于,所述基于3D-CNN算法训练温度预测模型,包括:
收集相关的数据,包括:
操作数据:每个体素或模块在运行过程中的操作数据,包括工作负荷、运行频率和任务类型;
功耗数据:每个体素在运行过程中的功耗数据;
温度数据:每个体素在运行过程中的当前温度数据;
用收集的数据训练模型。
5.如权利要求1所述的一种3D芯片的自适应电源管理方法,其特征在于,
所述基于实时热管理和监测系统实时监测3D芯片的每一层的温度,所述实时热管理和监测系统包括多个温度传感器、温度监控系统和热异常处理模块,其中:
在3D芯片的每一层都部署温度传感器,以实时监测每个体素的温度;
所述温度传感器通过硬件总线将读数发送到一个集中的温度监控系统;
所述温度监控系统定期读取和记录所有传感器的读数,并将这些发送到3D-CNN模型所在的温度预测模块进行温度预测的处理;
所述3D-CNN模型接收并处理来自所述温度监控系统的数据,预测每个体素在下一个时间步的温度,并将这些预测结果发送回所述温度监控系统;
所述温度监控系统判断体素的预测结果是否存在任何热异常,如果某个体素的预测温度高于预设工作温度阈值,则该体素存在热管理异常的问题,需要调整电源管理策略。
6.如权利要求5所述的一种3D芯片的自适应电源管理方法,其特征在于,
温度监控系统一旦检测到热异常,所述温度监控系统向热异常处理模块发送热异常触发信号,热异常处理模块启动备份模块并将出现热管理问题的体素的功能复制到所述备份模块。
7.如权利要求1所述的一种3D芯片的自适应电源管理方法,其特征在于,
确定备份模块时,将初步筛选的备份体素点位的多维3D输入数据输入至温度预测模型,并基于温度预测模型的输出结果来判断所述备份体素点位是否符合热管理的预期要求;
在得到了所有合格的备份体素点位以后,基于通信延迟来确定最优的备份体素点位。
8.如权利要求7所述的一种3D芯片的自适应电源管理方法,其特征在于,基于预期的体素温度分布,初步筛选出评分高于阈值的体素,所述评分根据如下公式进行计算:
其中:
Score:体素的评分;
T:体素的预期温度,为所述步骤3中基于实时温度确定下一时间步的对应体素的预测温度;
t_scale:用来调整T的影响范围,t_scale是一个正数;
A:对应体素的激活总时长;
a_scale:用来调整A的影响范围,a_scale是一个正数;
f(A):用于调整当A超过阈值A_max时,对A的影响的函数;
H:体素周围的温度分布;
H_function(H):用于描述体素周围的温度分布对评价体素质量或适用性的影响的函数。
9.如权利要求8所述的一种3D芯片的自适应电源管理方法,其特征在于,H_function(H)的计算公式如下:
其中,
H_avg:体素周围的平均温度;
H_max:体素周围的最高温度;
w1和w2:分别代表了H_avg和H_max在温度分布评价中的重要性的权重;
h_scale:用来调整温度分布的影响范围的正数。
10.如权利要求8所述的一种3D芯片的自适应电源管理方法,其特征在于,
f(A)的计算公式为:
在上述f(A)的计算公式中,当A<=A_max,f(A)将接近于1;
当A增大,f(A)将渐渐增大;
以及通过改变参数k来调整A超过A_max时增长的速率。
11.如权利要求1所述的一种3D芯片的自适应电源管理方法,其特征在于,选择备份模块进行激活,包括:
在备份模块中复制原模块的功能;
关闭原模块的电源,停止其运行;
启用备份模块,使其开始运行;
所述原模块为预期发生热异常的体素对应的模块,所述备份模块为基于冗余备份策略从至少一个热异常模块的备份模块选择的备份模块。
12.如权利要求1所述的一种3D芯片的自适应电源管理方法,其特征在于,基于冗余备份调整后的模块工作情况动态调整每一层的电源分配,包括:
通过模块负载和性能数据分析来确定模块的电源需求;
根据负载和性能数据预测模块的电源需求;
根据预测的电源需求调整电源分配,包括根据所有激活模块在芯片内的位置或层级,以及所有激活模块的电源需求,通过使用DVFS技术动态地调整每一层的电源分配。
CN202311120288.1A 2023-09-01 2023-09-01 一种3d芯片的自适应电源管理方法 Active CN116860097B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311120288.1A CN116860097B (zh) 2023-09-01 2023-09-01 一种3d芯片的自适应电源管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311120288.1A CN116860097B (zh) 2023-09-01 2023-09-01 一种3d芯片的自适应电源管理方法

Publications (2)

Publication Number Publication Date
CN116860097A CN116860097A (zh) 2023-10-10
CN116860097B true CN116860097B (zh) 2023-11-21

Family

ID=88230781

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311120288.1A Active CN116860097B (zh) 2023-09-01 2023-09-01 一种3d芯片的自适应电源管理方法

Country Status (1)

Country Link
CN (1) CN116860097B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117074925B (zh) * 2023-10-16 2023-12-29 中诚华隆计算机技术有限公司 一种3d芯片测试分析方法和系统
CN117199029B (zh) * 2023-11-07 2024-01-12 瑞森半导体科技(广东)有限公司 一种功率电源管理芯片及功率电源管理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777722A (zh) * 2016-12-25 2017-05-31 北京工业大学 一种利用tsv传输线网切换动态调整芯片热分布方法
CN113760660A (zh) * 2021-09-07 2021-12-07 南京大学 一种基于长短时记忆神经网络的三维多核芯片温度预测方法及系统
CN114896920A (zh) * 2022-07-12 2022-08-12 中南民族大学 一种三维堆叠芯片热仿真模型建立及热点温度预测方法
CN116306411A (zh) * 2023-03-14 2023-06-23 华中科技大学 一种三维堆叠芯片热仿真模型建立及热点温度预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012031362A1 (en) * 2010-09-07 2012-03-15 Corporation De L ' Ecole Polytechnique De Montreal Methods, apparatus and system to support large-scale micro- systems including embedded and distributed power supply, thermal regulation, multi-distributed-sensors and electrical signal propagation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777722A (zh) * 2016-12-25 2017-05-31 北京工业大学 一种利用tsv传输线网切换动态调整芯片热分布方法
CN113760660A (zh) * 2021-09-07 2021-12-07 南京大学 一种基于长短时记忆神经网络的三维多核芯片温度预测方法及系统
CN114896920A (zh) * 2022-07-12 2022-08-12 中南民族大学 一种三维堆叠芯片热仿真模型建立及热点温度预测方法
CN116306411A (zh) * 2023-03-14 2023-06-23 华中科技大学 一种三维堆叠芯片热仿真模型建立及热点温度预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
可热扩展的三维并行散热集成方法:用于大规模并行计算的片上系统关键技术;骆祖莹;《计算机学报》;第34卷(第4期);全文 *

Also Published As

Publication number Publication date
CN116860097A (zh) 2023-10-10

Similar Documents

Publication Publication Date Title
CN116860097B (zh) 一种3d芯片的自适应电源管理方法
TWI595760B (zh) 伺服器資源之管理系統及其管理方法
US8161309B2 (en) Apparatus, system, and method for controlling power sequence in a blade center environment
US9128704B2 (en) Operations management methods and devices thereof in information-processing systems
US20080313492A1 (en) Adjusting a Cooling Device and a Server in Response to a Thermal Event
US7464278B2 (en) Combining power prediction and optimal control approaches for performance optimization in thermally limited designs
US9015726B2 (en) Scheduling jobs of a multi-node computer system based on environmental impact
EP3268865B1 (en) Self-tune controller
US7181651B2 (en) Detecting and correcting a failure sequence in a computer system before a failure occurs
US11003496B2 (en) Performance-based multi-mode task dispatching in a multi-processor core system for high temperature avoidance
CN103403689B (zh) 一种资源故障管理方法、装置及系统
WO2014168913A1 (en) Database management system with database hibernation and bursting
US20170177045A1 (en) Thermal management apparatus and method using dynamic thermal margin, and semiconductor processor device, non-volatile data storage device and access control method using the same
CN102693164A (zh) 防止缓存溢出的设备和方法
CN109324679A (zh) 一种服务器能耗控制方法及装置
JP4930909B2 (ja) コンピュータ環境最適化システム、コンピュータ環境最適化方法、及びコンピュータ環境最適化プログラム
US20100318826A1 (en) Changing Power States Of Data-Handling Devices To Meet Redundancy Criterion
US10705580B2 (en) Intelligent energy-optimization technique for computer datacenters
CN103984588B (zh) 一种基于温度的虚拟机迁移方法及其系统
CN114614051A (zh) 燃料电池热管理控制方法、装置、介质、电子设备
US9753773B1 (en) Performance-based multi-mode task dispatching in a multi-processor core system for extreme temperature avoidance
Fulpagare et al. Optimal energy management for air cooled server fans using deep reinforcement learning control method
US20220283951A1 (en) Apparatus and method for intelligent memory page management
US20220237570A1 (en) Method and System for Determining Computer Fan Usage and Maintenance
CN112558740A (zh) 组件节流电力备用设备充电系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant