CN106133728B - 知晓可靠性的集成电路热设计 - Google Patents

知晓可靠性的集成电路热设计 Download PDF

Info

Publication number
CN106133728B
CN106133728B CN201580014207.7A CN201580014207A CN106133728B CN 106133728 B CN106133728 B CN 106133728B CN 201580014207 A CN201580014207 A CN 201580014207A CN 106133728 B CN106133728 B CN 106133728B
Authority
CN
China
Prior art keywords
cooling system
region
temperature
heat dissipation
integrated circuit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580014207.7A
Other languages
English (en)
Other versions
CN106133728A (zh
Inventor
K·迈特拉
T·T·恩古延
B·K·朗根多夫
J·珀特尔
R·H·詹森
R·甘纳玛尼
A·P·马拉特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN106133728A publication Critical patent/CN106133728A/zh
Application granted granted Critical
Publication of CN106133728B publication Critical patent/CN106133728B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/30Circuit design
    • G06F30/32Circuit design at the digital level
    • G06F30/33Design verification, e.g. functional simulation or model checking
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L23/00Details of semiconductor or other solid state devices
    • H01L23/34Arrangements for cooling, heating, ventilating or temperature compensation ; Temperature sensing arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2115/00Details relating to the type of the circuit
    • G06F2115/02System on chip [SoC] design
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/08Thermal analysis or thermal optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/30Circuit design
    • G06F30/39Circuit design at the physical level
    • G06F30/398Design verification or optimisation, e.g. using design rule check [DRC], layout versus schematics [LVS] or finite element methods [FEM]
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L23/00Details of semiconductor or other solid state devices
    • H01L23/34Arrangements for cooling, heating, ventilating or temperature compensation ; Temperature sensing arrangements
    • H01L23/46Arrangements for cooling, heating, ventilating or temperature compensation ; Temperature sensing arrangements involving the transfer of heat by flowing fluids
    • H01L23/467Arrangements for cooling, heating, ventilating or temperature compensation ; Temperature sensing arrangements involving the transfer of heat by flowing fluids by flowing gases, e.g. air

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • Condensed Matter Physics & Semiconductors (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Power Engineering (AREA)
  • Cooling Or The Like Of Semiconductors Or Solid State Devices (AREA)

Abstract

揭示了涉及实现半导体设备冷却系统的各实施例,该系统利用对区域电压的知晓和温度可靠性风险考虑。例如,一个所揭示的实施例提供了一种用于实现配置成用于冷却集成电路的冷却系统的方法。该方法包括首先确定将集成电路的每个区域降低到经降低的温度以维持总体故障率的散热因子。接着使用与提高了的电压和温度的相对可靠性风险有关的洞察来执行分析,以标识集成电路的其温度可被允许上升而不超过总体风险率的区域,从而允许具有经降低的散热因子的冷却系统的实现。

Description

知晓可靠性的集成电路热设计
背景
对增强的性能和更小形状因子的持续追求是现代片上系统(SoC)设计的中心事实。典型的性能增强办法包括各功能模块(GPU、CPU、存储器、I/O等)的增强的集成以及更高的供电电压的使用。SOC设计的这些以及其他办法可导致更高工作温度。为了维持合理的低故障风险,必须通常以增加的费用、复杂性和大小(例如,更大的散热器)来采取更多措施来散热。在某些情况中,散热还可损害声学性能。例如,高速风扇可能干扰话音激活功能。在针对操作环境的最坏情况进行设计的广泛趋势下,与热解决方案相关的声学性能降级以及其它成本变得更差。
概述
提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本发明内容并不旨在标识现在或将来所要求保护主题的关键特征或必要特征,也不旨在用于限制此类所要求保护主题的范围。而且,此类所要求保护的主题不限于解决该公开的任一部分中所注的任何或全部缺点的实现方式。
揭示了涉及实现半导体设备冷却系统的各实施例,该系统利用对区域电压的知晓和温度可靠性风险考虑。例如,一个所揭示的实施例提供了用于实现配置成用于冷却集成电路的冷却系统的方法,包括:对于所述集成电路的多个区域的每一个区域,基于那个区域的计划温度和计划供电电压来确定那个区域的故障率;基于各区域的故障率确定所述冷却系统的散热因子,其中对于每个区域,散热因子的实现将其计划温度降低到经降低的温度,使得在集成电路操作期间不超过该集成电路的总体故障率;分析各区域的经降低的温度和计划供电电压来标识具有小于各区域的最大供电电压的计划供电电压的所选区域,并且对于该所选区域,自经降低的温度的温度升高可被准许而不超过总体故障率;以及通过配置该冷却系统以允许在所选区域中温度升高来用经降低的散热因子实现该冷却系统。
附图简述
图1示意性地示出根据本公开的实现的示例性片上系统。
图2示出根据本公开的实现的被配置成用于驱散图1的片上系统所生成的热的示例性冷却系统。
图3A-B描绘了根据本公开的实现的分别示出作为温度和电压的函数的设备故障率非示例性数据集。
图4A-C示出例示出根据本公开的实现的用于实现冷却系统的方法的流程图。
图5示出例示出根据本公开的实现的用于确定跨集成电路的温度分布的方法的流程图。
图6示意性地示出根据本发明的实现的对图1的片上系统的每个功能块的故障率的确定。
图7示意性地示出根据本公开的实现的计算系统的非限制性示例。
详细描述
在片上系统(SOC)中,包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、存储器、和输出/输出(I/O)子系统的多个功能块可被集成在单个封装中。日益需要在SOC中集成更多数量的功能块以最大化SOC所提供的功能。还追求SOC性能的增长,通常通过增加对SOC的特定功能块(例如,CPU)供应的电压来实现。然而,两种趋势,通过增加SOC生成的必须被驱散以使得SOC在操作期间不超过可接受的可靠性风险的热量,对SOC冷却系统提出了不断增长的更高要求。在没有足够散热的情况下,随着SOC集成和供电电压两者增加,多个故障机制越来越多地发生,诸如生产线后道工序(BEOL)、生产线前道工序(FEOL)、时间相关电介质击穿(TDDB)以及xBTI故障。
在存在增加的集成和供电电压时,为确保足够的散热和想要的SOC操作,SOC冷却系统的散热功率可相应被增加。这个散热功率频繁地超过大部分SOC操作条件所需要的功率,因为散热系统是基于最坏操作条件设计的——具体而言,可被供给SOC的一个或多个功能块的最大电压以及它们可分别假设的最大温度。这样的热“过设计”可导致冷却系统的功耗、材料成本、以及封装空间的不必要的增加。在使用户能够提供话音输入的计算上下文中,热过设计可导致活动冷却机制(例如风扇)展现出增加的声学输出,从而负面地影响话音输入的解释并降级用户体验。
因此,揭示了涉及实现半导体设备冷却系统的各实现,该系统利用对区域电压的知晓和温度可靠性风险考虑。这可提供在冷却设备的设计和操作上的节约,因为散热需求相对于基于最坏情况估计确定的那些散热需求来说可被降低。散热需求的降低可显著地对于薄的形状因子计算设备(例如,平板、智能电话等)有益,因为冷却设备的大小可被减小,从而允许包围计算设备的各组件的外壳的大小对应地减小。
图1示意性地示出根据本公开的实现的示例性SOC 100。SOC 100通常可被认为是包括用硅实现以在单个封装中提供典型计算设备的一个或多个功能的多个集成电路(IC)的半导体设备。在所描绘的示例中,SOC 100包括多个功能块,每个功能块提供唯一的功能——具体地,SOC包括存储器块102、CPU块104、GPU块106、I/O块108以及存储器控制器块110。然而,将理解,这些功能块的数量、类型和安排作为非限制性示例被提供,并且SOC 100可包括未示出的其它组件,诸如桥结构。
SOC 100在操作时产生热。为确保想要的SOC操作,并且可靠性风险不超过预定水平,SOC产生的热可通过合适的冷却系统来被驱散。图2示出了被配置成用于驱散由SOC 100产生的热的示例性冷却系统200。在此示例中,冷却系统200包括被示为置于接近SOC 100并在SOC 100上方的散热器202的被动冷却机制。散热器202可包括导热材料(例如,铜、铝、金属合金等)并可包括配置成用于增加可通过其驱散热的表面积的多个元件(例如,散热片203)。尽管未示出,热界面材料可将SOC 100的顶面热结合到散热器202的底面以最大化它们之间的热传递。冷却系统200还包括示为置于散热器202上方并可操作从SOC 100吸走热的风扇204的活动冷却机制。在某些实现中,冷却系统200可包括散热器202而无风扇204,在这种情况中SOC 100可被称为“被动”冷却。对于包括风扇204的各实现,SOC 100可被称为“活动”冷却。然而,也构想了其它冷却机制,包括但不限于活动液体冷却机制。
通过利用对SOC操作的洞察,SOC 100产生的热通过冷却系统200被驱散的水平和/或速率可被降低,而不会超过可接受的可靠性风险。代表典型SOC操作的温度和电压可被考虑,而不是基于SOC操作的最坏情况设计冷却系统(例如,设计足以在SOC的各功能块处在最高温度且正接受最大供电电压时驱散热的冷却系统)。在某些办法中,使用模型可被用来通过基于在执行现实世界代码时SOC活跃度来模拟热输出以预测跨SOC 100的计划温度分布。计划温度分布可与期望被供给功能块的计划供电电压进行组合,以在冷却系统实现之前向冷却系统200的设计提供信息。在某些办法中,计划温度分布和供电电压可在SOC操作期间被更新以驱动SOC和/或冷却系统操作的动态改变。
图1还示出了SOC 100可如何被概念性地分割成多个区域(例如区域112),以更好地向冷却系统200的设计和/或操作提供信息。在此办法中,SOC 100的面积及其功能块可在空间上分成各区域,使得每个区域可具有相关联的温度和电压(和/或其它操作参数)。以此方式,给定功能块的温度和电压中的空间变化可被说明,而不是假设功能块的单个温度和电压。如以下进一步详细描述的,这个分割可在迭代基础上执行以获得对SOC操作的增加粒度的洞察。将理解SOC 100可被分割成任何合适的区域数量和几何形状。
冷却系统200的设计和/或操作还可利用温度和电压对SOC故障率的非对称贡献的洞察。图3A和B描绘了分别示出作为温度和电压的函数的设备故障率示例数据集302和304。具体而言,数据集302和304代表SOC 100的故障率。连续的数据点对({A,B},{C,D},{E,F},{G,H})在相同电压但不同温度处收集。尽管在图3A中示出故障率和温度之间的正相关,但是在图3B中示出了故障率和电压之间的大得多的正相关。具体而言,数据点G和H通过非常大的差数展示了高故障率;尽管与相对低的温度相关联,它们与任何数据点的最高电压相关联。因此,冷却系统设计和/或操作可考虑电压比温度对故障率的更高贡献。如以下进一步描述的,在计算故障率时电压可比温度被更高地加权,允许SOC 100的某些功能块和/或区域的温度升高,而不需要散热的对应增加来满足可接受故障率。
图4A、4B和4C示出例示出根据本公开的用于实现冷却系统的方法400的流程图。例如,方法400可被用来实现SOC 100的冷却系统200。此外,方法400的各方面,特别是那些与动态活动冷却策略相关联的,可作为机器可读指令被存储在合适的存储子系统中并由合适的逻辑子系统执行。图7示出了合适的存储和逻辑子系统的示例。
在方法400的402,基于集成电路(IC)的多个区域中的每一个区域的计划温度和计划供电电压来确定那个区域的故障率。在某些示例中,例如,IC可以是功能块的集合或诸如SOC 100(图1)之类的SOC。确定多个区域中的每个区域的故障率可首先包括,例如基于给定使用模型消耗的功率来确定跨IC的温度分布。
现在转向图5,解说确定跨IC的温度分布的方法500的流程图被示出。例如,方法500可被用来确定跨SOC 100(图1)的温度分布。方法500包括,在502,说明IC的几何形状(例如,IC的尺寸、功能块的大小和分布等),以及在504,IC的材料属性(例如,晶体管类型和材料组分)。在506,使用模型可被利用,如上所述,其可提供功能块在操作期间的活跃度的表征。在508,IC的计划功耗可基于在506利用的使用模型来确定,并且在510,跨IC的温度分布可基于在508确定的计划功耗来确定。例如,温度分布的确定可包括对已知的计算流体动力学技术的利用。温度分布可包括与IC的每个区域相关联的计划温度。
使用计划电压和所确定的温度分布,IC的每个区域的故障率可被确定。图6示意性地示出对SOC 100(图1)的每个功能块的故障率的确定,其中计划温度和计划供电电压与每个功能块相关联。基于每个块的计划温度和计划电压,同时考虑以上参考图3讨论的电压和温度对故障率的不对称贡献,来确定那个功能块的故障率。具体而言,这个不对称性可通过比较CPU功能块104和GPU功能块106的故障率的计算来看出。尽管与CPU功能块104相关联的计划温度被认为中等,但其计划供电电压被认为高。在这些条件下,所确定的CPU功能块104的故障率高。相反地,尽管GPU功能块106的计划温度高,但其计划供电电压为中等,从而导致故障率处在中等水平。其它功能块的故障率的确定也反映这个不对称性。此外,尽管以功能块的术语来进行描述,将理解SOC 100被分割成的多个区域中的每一个区域的故障率可被确定。例如,可靠性可针对CPU功能块104的子区域来被评估。
在确定每一个功能块的故障率之后,IC的总体故障率可基于各单独功能块故障率来确定。总体故障率的确定可包括对各单独故障率中的一者或多者的加权,使得某些功能块(或区域)相比其它而言对总体故障率贡献更多。在某些实现中,故障率总计(SOFR)方法可被用来评估IC的总体故障率。
回到图4A,在方法400的404,基于各区域的故障率来确定冷却系统的散热因子,使得在IC的操作期间不超过IC的总体故障率。特别地,对于每个区域,散热因子的实现(例如,以散热因子操作冷却系统)将其计划温度降低到经降低的温度,使得在IC操作期间不超过总体故障率。
散热因子可以是任意的无单位数、热传递系数、和/或表征冷却系统的散热性能的其它指定。给定热设计的散热因子是冷却系统的各种方面的函数,例如散热器大小;散热器散热片的数量和大小或影响表面积的其它特征;散热器材料;IC和散热器之间的热界面的材料和设计;冷却风扇的大小;等等。散热因子还可在操作期间例如通过改变风扇速度或以其他方式改变冷却风扇的操作来动态改变。被动和活动冷却机制两者都可影响散热因子。
接着,在方法400的406,IC的至少一个区域被迭代地分割成越来越小的子区域以标识温度约束可被放松的子区域。这是IC上电压和温度条件的增加粒度的分析,并且其利用增加的电压通常相比温度升高而言对可靠性有更大影响的洞察。在406的迭代分割包括考虑供电电压并确定在子区域中的温度分布。总体故障率和散热因子在404基于温度必须被降低到特定水平的假设而被断言。在406的粒度分割允许其中温度可被允许浮动更高而不危害所需总体故障率的一个或多个子区域的标识。以此方式的迭代分割允许更多SOC操作的粒度评估,从而允许冷却系统根据实际操作条件而不是最坏情况假设来被定制。
在方法400的408,区域的经降低的温度和计划供电电压被分析以标识所选区域,对该所选区域,可准许温度升高而不超过总体故障率。由于在406至少一个区域被迭代地分割,分析可在至少一个区域上执行。此外,由于分析可在全部区域(和子区域)上被执行,因此将可能标识一个以上的其中可准许温度升高的所选区域。这样的所选区域的标识利用以上参考图6描述的温度-电压不对称性。
接着,在方法400的410,经降低的散热因子可被任选地确定并与最坏情况散热因子进行比较。可基于在406和/或408标识的所选区域来确定经降低的散热因子——具体地,所标识的所选区域的数量和它们的可被准许的相应温度升高的幅度。最坏情况散热因子可以是冷却系统可用来实现使得IC的可接受故障率在最坏情况操作期间(即,针对其中IC的功能块或区域假设它们相应最大温度和最大供电电压的操作条件)不被超过的散热因子。经降低的散热因子与最坏散热因子的比较可包括计算前者对后者的比率,从而获得经降低的散热因子提供的增益量化。
转到图4B,在方法400的412,通过配置冷却系统以允许温度在406和/或408所标识的所选区域中升高以用经降低的散热因子实现冷却系统。由于一个以上的区域可能已经被标识,因此冷却系统可被配置来允许一个以上的温度升高。
在412用经降低的散热因子实现冷却系统可包括各种设计时和/或运行时动作,某些动作可依赖于冷却系统是否包括活动冷却系统。例如,实现冷却系统可包括,在414,降低活动冷却机制的大小。例如,风扇大小可被降低。实现冷却系统可包括,在416,降低活动冷却机制的操作频率。例如,可通过降低功率被供给活动冷却机制的频率来降低操作频率。实现冷却系统可包括,在418,降低被动冷却机制的大小。在此,例如,散热器(例如,图1的散热器202)的一个或多个尺寸可被降低。实现冷却系统可包括,在420,降低被动冷却机制的表面积。这可包括减少被动冷却机制中的散热片(例如,图2的散热片203)的数量。实现冷却系统可包括,在422,基于经降低的散热因子选择热界面材料。例如,热界面材料可将被配置来将SOC 100的顶面热结合到散热器202的底面。基于经降低的散热因子对热界面材料的选择可允许选择更少花费或更合适的热界面材料。最后,实现冷却系统可包括,在424,基于具有多个区域的故障率中的最大故障率的区域来将冷却系统或其部分置于一个位置。在此,具有最大故障率的区域可被专门定标以在IC操作期间获得所需的可靠性。
转到图4C,在方法400的426,IC的冷却系统和/或区域的操作参数可响应于可靠性条件(例如,超过阈值的故障风险)来被动态调整。操作参数的动态调整可包括,在428,如果区域的活动具有等于超过活动阈值的最大供电电压的计划供电电压,则(例如,通过增加的风扇活动)动态增加经降低的散热因子。在此,由于这个区域已经被标识为与IC上的多个区域的最大可靠性风险相关联——即,基于其最大供电电压对其故障率的不对称贡献将故障风险纳入考虑,因此这个区域是冷却的目标。该可靠性风险可以以各种合适方式来计算,且在某些示例中可基于故障率、活动水平、活动水平历史等的一个或多个。此外,区域的活动可以各种合适的方式定义;在某些示例中,活动可以是区域(或相关联的功能块)执行的每个周期的指令的量度。
操作参数的动态调整可包括,在430,如果CPU功能块(例如,图1的CPU功能块104)的可靠性风险超过阈值,则降低供给CPU功能块的电压。在此,CPU功能块中的性能可被牺牲以将可靠性风险维持在可接受的水平。操作参数的动态调整可包括,在432,响应于检测到区域的可靠性风险已经超过了阈值,增加活动冷却机制(例如,风扇204)的风扇速度。在此,散热可被增加以将可靠性风险维持在可接受的水平。操作参数的动态调整还可包括,在434,响应于检测到区域的可靠性风险超过了阈值,增加活动冷却机制的操作频率。在某些情形中,操作活动冷却机制可包括以一频率交替向活动冷却机制供电和断电。这一频率可响应于检测到区域的可靠性风险超过阈值而被动态增加。
操作参数的动态调整可包括,在436,降低CPU功能块的时钟频率,使得活动冷却机制产生的声学输出不超过阈值。在此,CPU功能块活动通过时钟频率降低而降低,从而允许冷却机制驱散较少热量,并相应地降低其声学输出,这可能对于话音输入被接收的上下文来说尤为重要。操作参数的动态调整可包括,在438,响应于检测到区域的可靠性风险已经超过了阈值,为IC安排替换或加速替代安排。在此,增加的可靠性风险被准许,因为性能降低不能被忍受。安排替换可包括生成指示被安排的替换的输出。操作参数的动态调整可包括,在440,响应于检测到可靠性风险已经超过了阈值,生成指示区域的可靠性风险已经超过了阈值的输出。在某些示例中,输出可通过合适的输出设备被传达到用户。
操作参数的动态条件还可包括,在442,基于通过合适的输入设备接收到的用户输入来动态调整冷却设备和/或区域(或功能块)的操作参数。可被动态调整的任何操作参数可基于用户输入来控制,包括但不限于活动冷却机制速度、操作频率、功能块时钟频率、替换安排等。操作参数的动态调整可包括,在444,响应于检测到区域的可靠性风险已经超过了阈值,将存储在通信地耦合到IC的存储系统中存储的数据复制到冗余存储系统中。在此,在发生偏离想要的IC操作时可被不利地影响的数据可被复制到冗余存储系统,以确保数据的持续完整性和对数据的访问。操作参数的动态调整可包括,在446,响应于检测到区域的可靠性风险已经超过了阈值,增加检查IC的一个或多个功能块的频率。在某些示例中,如果功能块的可靠性风险超过阈值,就可为功能块增加检查点频率。在此,对于其中IC包括检查点组件的实现,在偏离想要的功能块操作的情况下,增加的检查点频率可能能够允许一个或多个功能块的状态退回。最后,操作参数的动态调整可包括,在448,准许一区域中更高的可靠性风险但停用IC的其它区域。其它区域的停用可包括,例如,降低供给这些区域的电压。在此,IC的总体故障率的维持可通过准许在一个区域中的较高可靠性风险但是降低在其它区域中的可靠性风险来尝试。
因此,如所示和所描述的,在冷却系统的设计和/或操作期间,方法400可被采用以在实现配置成用于驱散IC产生的热时得到节约。该节约可包括归因于降低的风扇速度、风扇大小和/或操作频率的在功耗方面的下降。替换地或附加地,节约可表现为归因于散热器大小、散热器表面积的大小的降低,和/或热界面材料的更便宜或更有目的性的选择而在材料成本上的降低。这允许冷却系统针对典型用户采用的大部分使用情况(例如,多达最大可能IC活动的80%)被定制,同时保持将冷却系统和/或IC动态适配于其中IC活动最大化(例如80%以上活动)的高性能角情况。如此,冷却系统不需要针对最坏操作条件被“过设计”。在此描述的方法可特别适用于前沿硅处理器和SOC设计,诸如<45nm的硅实现以及采用高K/金属门、III-V半导体、FinFET、TFET等的高级材料/设备系统。此外,计算设备的薄形状因子可尤其从在此描述的方法获益,因为作为它们的冷却设备的大小的减小的结果,它们的外壳大小可被减小。方法400通过识别电压和温度对故障率的不对称贡献,并通过获得IC的操作条件的多个粒度的知识来实现这些益处。尽管参考SOC来示出和描述,将理解在此描述的方法可应用于除SOC以外的设备,包括在两个或更多个分开的封装上实现功能块那些。
图7示意性地示出可以执行上述方法和过程中的一个或多个的计算系统700的非限制性实例。以简化形式示出了计算系统700。计算系统700可采取以下形式:一个或多个个人计算机、服务器计算机、平板计算机、家庭娱乐计算机、网络计算设备、游戏设备、移动计算设备、移动通信设备(例如,智能电话)和/或其它计算设备。
计算系统700包括逻辑子系统702和存储子系统704。计算系统700可任选地包括输入/输出子系统706,和/或图7未示出的其他组件。
逻辑子系统702包括被配置来执行指令的一个或多个物理设备。例如,逻辑子系统702可以被配置为执行作为一个或多个应用、服务、程序、例程、库、对象、组件、数据结构或其它逻辑构造的一部分的指令。这种指令可被实现以执行任务、实现数据类型、转换一个或多个部件的状态、实现技术效果、或以其它方式得到期望结果。
逻辑子系统702可包括被配置成执行软件指令的一个或多个处理器。可执行指令的一个示例是执行上述动态管理策略的指令。附加地或可替代地,逻辑子系统可以包括被配置为执行硬件或固件指令的一个或多个硬件或固件逻辑机器。逻辑子系统的处理器可以是单核的或多核的,其上执行的指令可以被配置用于串行、并行和/或分布式处理。逻辑子系统的个体组件可任选地分布在两个或更多个分开的设备之间,所述设备可以位于远程以及/或者被配置用于协同处理。逻辑子系统的各方面可由以云计算配置进行配置的可远程访问的联网计算设备来虚拟化和执行。
存储子系统704包括被配置成保持可由逻辑机执行的指令以实现此处描述的方法和过程的一个或多个物理设备。在实现此类方法和过程时,存储子系统704的状态可以被变换——例如,以保持不同的数据。
存储子系统704可以包括可移动和/或内置设备。存储子系统704可以包括光学存储器(例如,CD、DVD、HD-DVD、蓝光碟等)、半导体存储器(例如,RAM、EPROM、EEPROM等)和/或磁性存储器(例如,硬盘驱动器、软盘驱动器、磁带驱动器、MRAM等)、等等。存储子系统704可包括易失性、非易失性、动态、静态、读/写、只读、随机存取、顺序存取、位置可寻址、文件可寻址和/或内容可寻址设备。
可以理解,存储子系统704包括一个或多个物理设备。然而,本文描述的指令的各方面可另选地通过不由物理设备在有限时长内持有的通信介质(例如,电磁信号、光信号等)来传播。
逻辑子系统702和存储子系统704的各方面可以被一起集成到一个或多个硬件逻辑组件中。这些硬件逻辑组件可包括例如现场可编程门阵列(FPGA)、程序和应用专用的集成电路(PASIC/ASIC)、程序和应用专用的标准产品(PSSP/ASSP)、片上系统(SOC)以及复杂可编程逻辑器件(CPLD)。
术语“模块”、“程序”和“引擎”可用于描述被实现为执行一个特定功能的计算系统700的一方面。在某些情况下,可以通过执行由存储子系统704所保持的指令的逻辑子系统702来实例化模块、程序或引擎。应当理解,可以从同一应用、服务、代码块、对象、库、例程、API、函数等来实例化不同的模块、程序和/或引擎。类似地,相同的模块、程序和/或引擎可由不同的应用、服务、代码块、对象、例程、API、功能等来实例化。术语“模块”、“程序”和“引擎”意在涵盖单个或成组的可执行文件、数据文件、库、驱动程序、脚本、数据库记录等。
应该理解,在此使用的“服务”是跨多个用户会话可执行的应用程序。服务可用于一个或多个系统组件、程序和/或其它服务。在某些实现中,服务可以在一个或多个服务器计算设备上运行。
在被包括时,输入/输出设备子系统706可以包括诸如键盘、鼠标、触摸屏或游戏控制器之类的一个或多个用户输入设备或者与其接口。在一些实现中,输入子系统可以包括所选择的自然用户输入(NUI)部件或与其对接。这种元件部分可以是集成的或外围的,输入动作的转导和/或处理可以在板上或板外被处理。NUI部件的示例可包括用于语言和/或语音识别的话筒;用于机器视觉和/或姿势识别的红外、色彩、立体显示和/或深度相机;用于运动检测和/或意图识别的头部跟踪器、眼睛跟踪器、加速计和/或陀螺仪;以及用于评估脑部活动的电场感测部件。
将会理解,此处描述的配置和/或方法本质是示例性的,这些具体实现或示例不应被视为限制性的,因为许多变体是可能的。此处描述的具体例程或方法可以表示任何数量的处理策略中的一个或多个。如此,所示和/或所述的各种动作可以以所示和/或所述顺序、以其它顺序、并行地执行,或者被省略。同样,上述过程的次序可以改变。
本公开的主题包括各种过程、系统和配置以及此处公开的其它特征、功能、动作和/或属性、以及它们的任一和全部等价物的所有新颖且非显而易见的组合和子组合。

Claims (11)

1.一种用于实现并设计配置成用来冷却集成电路的冷却系统的方法,其中所述方法的每一步使用计算系统来执行,所述方法包括:
基于所述集成电路的多个区域中的每一个区域的计划温度和计划供电电压来确定该区域的故障率;
基于各区域的故障率来确定所述冷却系统的散热因子,以对于每个区域,将其计划温度降低到经降低的温度,使得在所述集成电路的操作期间不超过所述集成电路的总体故障率;
分析各区域的所述经降低的温度和计划供电电压,以标识具有小于各区域的最大供电电压的计划供电电压的所选区域,并且对于该所选区域,自经降低的温度的温度升高能被准许而不超过所述总体故障率;以及
通过配置所述冷却系统以允许在所选区域中的温度升高来用经降低的散热因子实现所述冷却系统。
2.如权利要求1所述的方法,其特征在于,进一步包括,如果具有等于所述最大供电电压的计划供电电压的区域的活动超过活动阈值,则动态地提高经降低的散热因子。
3.如权利要求1所述的方法,其特征在于,用所述经降低的散热因子实现所述冷却系统包括动态地调整所述冷却系统的活动冷却机制的操作。
4.如权利要求1所述的方法,其特征在于,用所述经降低的散热因子实现所述冷却系统包括降低所述冷却系统的活动冷却机制的大小。
5.如权利要求1所述的方法,其特征在于,用所述经降低的散热因子实现所述冷却系统包括降低所述冷却系统的活动冷却机制的工作频率。
6.如权利要求1所述的方法,其特征在于,用所述经降低的散热因子实现所述冷却系统包括降低所述冷却系统的被动冷却机制的大小和表面积中的一者或两者。
7.如权利要求1所述的方法,其特征在于,用所述经降低的散热因子实现所述冷却系统包括基于所述多个区域中的具有最大故障率的区域来将所述冷却系统置于接近所述集成电路的一个位置。
8.如权利要求1所述的方法,其特征在于,还包括响应于检测到可靠性风险超过阈值来降低供给所述集成电路的中央处理单元的供电电压。
9.如权利要求1所述的方法,其特征在于,还包括响应于检测到可靠性风险超过阈值来将存储在通信地耦合到所述集成电路的存储系统中的数据复制到冗余存储系统。
10.如权利要求1所述的方法,其特征在于,进一步包括:
对于所述集成电路的至少一个区域,将所述区域迭代地划分成越来越小的子区域,并且,在每个迭代,标识所选子区域,其中对于该所选子区域,自所述经降低的温度的温度升高能可被准许而不超过所述总体故障率;
其中实现所述冷却系统包括,通过配置所述冷却系统以允许在每个所选子区域中的温度升高来用所述经降低散热因子实现所述冷却系统。
11.其上存储有计算机可执行指令的一个或多个计算机存储介质,所述计算机可执行指令在由计算系统的一个或多个处理器执行时,使得所述计算系统执行前述任一权利要求所述的方法。
CN201580014207.7A 2014-03-14 2015-03-11 知晓可靠性的集成电路热设计 Active CN106133728B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201461953346P 2014-03-14 2014-03-14
US61/953,346 2014-03-14
US14/318,221 US9495491B2 (en) 2014-03-14 2014-06-27 Reliability aware thermal design
US14/318,221 2014-06-27
PCT/US2015/019812 WO2015138527A2 (en) 2014-03-14 2015-03-11 Reliability aware thermal design

Publications (2)

Publication Number Publication Date
CN106133728A CN106133728A (zh) 2016-11-16
CN106133728B true CN106133728B (zh) 2019-06-28

Family

ID=54069153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580014207.7A Active CN106133728B (zh) 2014-03-14 2015-03-11 知晓可靠性的集成电路热设计

Country Status (4)

Country Link
US (1) US9495491B2 (zh)
EP (1) EP3117351A2 (zh)
CN (1) CN106133728B (zh)
WO (1) WO2015138527A2 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9495491B2 (en) * 2014-03-14 2016-11-15 Microsoft Technology Licensing, Llc Reliability aware thermal design
KR102262906B1 (ko) * 2014-11-13 2021-06-09 삼성전기주식회사 회로기판
CN106970662A (zh) 2016-01-14 2017-07-21 讯凯国际股份有限公司 智能控制方法与装置
US10317962B2 (en) 2016-08-16 2019-06-11 International Business Machines Corporation Inducing heterogeneous microprocessor behavior using non-uniform cooling
US10558249B2 (en) 2016-09-27 2020-02-11 International Business Machines Corporation Sensor-based non-uniform cooling

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7050959B1 (en) * 1999-12-23 2006-05-23 Intel Corporation Dynamic thermal management for integrated circuits
CN103268076A (zh) * 2013-04-02 2013-08-28 中国科学院上海微系统与信息技术研究所 一种通过控制温度提高集成电路可靠性的方法
CN103582857A (zh) * 2011-04-22 2014-02-12 高通股份有限公司 便携式计算设备中的热负载管理
WO2015138527A3 (en) * 2014-03-14 2015-12-23 Microsoft Technology Licensing, Llc Reliability aware thermal design of integrated circuits

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6389582B1 (en) * 1995-12-21 2002-05-14 John Valainis Thermal driven placement
US6976235B2 (en) 2002-09-18 2005-12-13 Sun Microsystems, Inc. Region-based voltage drop budgets for low-power design
US7191113B2 (en) * 2002-12-17 2007-03-13 International Business Machines Corporation Method and system for short-circuit current modeling in CMOS integrated circuits
US7383520B2 (en) * 2004-08-05 2008-06-03 Gradient Design Automation Inc. Method and apparatus for optimizing thermal management system performance using full-chip thermal analysis of semiconductor chip designs
US8019580B1 (en) * 2007-04-12 2011-09-13 Gradient Design Automation Inc. Transient thermal analysis
US7454316B2 (en) 2004-10-08 2008-11-18 International Business Machines Corporation Method and apparatus for monitoring and enhancing on-chip microprocessor reliability
KR101322434B1 (ko) * 2005-07-11 2013-10-28 브룩스 오토메이션 인코퍼레이티드 지능형 상태 감시 및 결함 진단 시스템
US7480874B2 (en) * 2005-08-05 2009-01-20 Agere Systems Inc. Reliability analysis of integrated circuits
US8944896B2 (en) 2007-02-22 2015-02-03 Tellabs Operations, Inc. Apparatus, system, and method for venting a chassis
US7472038B2 (en) 2007-04-16 2008-12-30 International Business Machines Corporation Method of predicting microprocessor lifetime reliability using architecture-level structure-aware techniques
US9323870B2 (en) * 2012-05-01 2016-04-26 Advanced Micro Devices, Inc. Method and apparatus for improved integrated circuit temperature evaluation and IC design

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7050959B1 (en) * 1999-12-23 2006-05-23 Intel Corporation Dynamic thermal management for integrated circuits
CN103582857A (zh) * 2011-04-22 2014-02-12 高通股份有限公司 便携式计算设备中的热负载管理
CN103268076A (zh) * 2013-04-02 2013-08-28 中国科学院上海微系统与信息技术研究所 一种通过控制温度提高集成电路可靠性的方法
WO2015138527A3 (en) * 2014-03-14 2015-12-23 Microsoft Technology Licensing, Llc Reliability aware thermal design of integrated circuits

Also Published As

Publication number Publication date
EP3117351A2 (en) 2017-01-18
WO2015138527A3 (en) 2015-12-23
WO2015138527A2 (en) 2015-09-17
CN106133728A (zh) 2016-11-16
US9495491B2 (en) 2016-11-15
US20150261901A1 (en) 2015-09-17

Similar Documents

Publication Publication Date Title
CN106133728B (zh) 知晓可靠性的集成电路热设计
US9945576B2 (en) System and method for detecting the presence of alternate cooling systems
US9436838B2 (en) Secure local web application data manager
US11327869B2 (en) Distributed architecture for determining performance parameters
US9250664B2 (en) IHS component cooling system
US10120426B2 (en) Thermal management apparatus and method using dynamic thermal margin, and semiconductor processor device, non-volatile data storage device and access control method using the same
US11231760B1 (en) Techniques for accurately determining the temperature at various locations of an operating integrated circuit
CN106462465A (zh) 用于使性能最大化并降低芯片温度和功率的优选内核排序的算法
US10863653B2 (en) Thermal testing system and method of thermal testing
CN113962142B (zh) 一种基于两段式lstm的数据中心温度预测方法及系统
US8457806B2 (en) Managing an infrastructure having a 3D package and cooling resource actuators
US11751360B2 (en) Intelligently deployed cooling fins
CN104750213A (zh) 对处理器中的热电致冷的模糊逻辑控制
US9292210B1 (en) Thermally sensitive wear leveling for a flash memory device that includes a plurality of flash memory modules
US10281964B2 (en) Determining thermal time constants of processing systems
CN116860097B (zh) 一种3d芯片的自适应电源管理方法
US20200193268A1 (en) Multi-instance recurrent neural network prediction
Sarood Optimizing performance under thermal and power constraints for HPC data centers
Li et al. Inverse distance weighting method based on a dynamic voronoi diagram for thermal reconstruction with limited sensor data on multiprocessors
Li et al. Heuristic thermal sensor allocation methods for overheating detection of real microprocessors
US20170269651A1 (en) Method and apparatus for managing power in a thermal couple aware system
Kowsigan et al. An optimal automatic cooling system in cloud data center
CN105426283B (zh) 电子产品热设计最佳化方法
US11439001B2 (en) System and method for heat removal using a thermal potting solution in an information handling system
Kodukula et al. Stagioni: Temperature management to enable near-sensor processing for energy-efficient high-fidelity imaging

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant