CN113467590B - 一种基于相关性和人工神经网络的众核芯片温度重构方法 - Google Patents

一种基于相关性和人工神经网络的众核芯片温度重构方法 Download PDF

Info

Publication number
CN113467590B
CN113467590B CN202111035472.7A CN202111035472A CN113467590B CN 113467590 B CN113467590 B CN 113467590B CN 202111035472 A CN202111035472 A CN 202111035472A CN 113467590 B CN113467590 B CN 113467590B
Authority
CN
China
Prior art keywords
core
temperature
correlation
cores
many
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111035472.7A
Other languages
English (en)
Other versions
CN113467590A (zh
Inventor
傅玉祥
郭孟豪
李丽
程童
何书专
李伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202111035472.7A priority Critical patent/CN113467590B/zh
Publication of CN113467590A publication Critical patent/CN113467590A/zh
Application granted granted Critical
Publication of CN113467590B publication Critical patent/CN113467590B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means
    • G06F1/206Cooling means comprising thermal management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/173Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Measuring Temperature Or Quantity Of Heat (AREA)
  • Investigating Or Analyzing Materials Using Thermal Means (AREA)

Abstract

本发明提出了一种基于相关性和人工神经网络的众核芯片温度重构方法及系统,该方法基于众核芯片核与核之间温度变化之间的相关性确定了热传感器的分布位置;人工神经网络能够根据热传感器获得的部分核的温度得出众核芯片中所有核的温度。本发明可以支持众核芯片在多种负载情况下进行温度重构;当众核芯片运行多种不同的应用的时候不需要重新确定热传感器的分配位置和也无需重新训练人工神经网络。本发明所需热传感器数目少,重构得到的温度精度高,能适应多种负载情况,因此有着良好的实用价值和广泛的应用前景。

Description

一种基于相关性和人工神经网络的众核芯片温度重构方法
技术领域
本发明涉及一种基于相关性和人工神经网络的众核芯片温度重构方法,特别是涉及众核芯片的温度重构技术领域。
背景技术
随着半导体工艺技术的发展,器件的尺寸可以做到越来越小,单个芯片上可以集成的晶体管数目也越来越多,但是由于功耗以及温度的限制,芯片性能的提升往往达不到预期。为了进一步提高芯片的性能,现在的芯片上往往集成了多个处理器核或者功能模块。但是随着核数的增多,特别是当三维架构被提出之后,芯片的功率密度变得更大,散热途径变得更长,导致很容易出现过热的情况。过热会导致芯片的性能下降,芯片的寿命也会缩短。
现有技术中,为了避免过热情况的出现,一般在众核芯片系统中会使用动态温度管理(Dynamic Temperature Management,DTM)算法,动态温度管理会监控众核芯片各个核的温度,对温度过高的核实施降低功率等管理方法,保证众核芯片工作在正常的温度范围内。动态温度管理一般需要知道所有核的温度,获得核的温度的最直接的方法就是在所有核上都嵌入热传感器,通过热传感器的测量来直接获得众核芯片所有核的温度。但是随着核数的增多,这样做会使得成本太高。
发明内容
发明目的:为了降低众核芯片系统温度重构过程中使用的热传感器数量,同时能够提高温度重构的精度,进而能够让动态温度管理算法更好的发挥作用来避免众核芯片过热情况的出现,提出一种基于相关性和人工神经网络的众核芯片温度重构方法及系统,以解决现有技术存在的上述问题,同时更好满足实际应用的需求。
技术方案:第一方面,提出了一种基于相关性和人工神经网络的众核芯片温度重构方法,该方法具体包括以下步骤:
步骤一、由至少一个热传感器构成核温度测量组;
步骤二、判断众核芯片核与核之间的相关性并根据相关性结果确定热传感器分布位置;
步骤三、构建用于温度重构的人工神经网络;
步骤四、利用核温度测量组采集众核芯片上的温度数值;
步骤五、将步骤四中的温度数值传输至人工神经网络中,对众核芯片上所有核的温度进行重构。
在第一方面的一些可实现方式中,由于核与核之间物理上相邻,或者是某些特殊位置的点对于路由算法有相似的敏感性,使得这些核的温度变化具有很强的关联性。为了确定热传感器的分配位置,步骤二中进一步为:
步骤2.1、计算核与核温度之间的相关性;
步骤2.2、将所有核纳入需放置热传感器的核集合φ中,根据该核集合φ构建核-高相关性核数矩阵
Figure 100002_DEST_PATH_IMAGE002
,其中
Figure 100002_DEST_PATH_IMAGE004
为与φ中相对应核的相关性高于预设数值的核的总数目;
步骤2.3、根据核-高相关性核数矩阵
Figure 988812DEST_PATH_IMAGE002
,找出
Figure 374794DEST_PATH_IMAGE004
中的最大值,并将最大值对应的核标记为传感器的放置位置,最大值意味着与该核的相关性高于预设数值的核,即具有高相关性的核数目最多;
步骤2.4、 对于步骤2.3,如果与
Figure 623372DEST_PATH_IMAGE004
中最大值对应的核不止一个,需要找出这些核中具有的高相关性系数之和最大的核,并将该核作为传感器的放置位置,如果这些核中具有的高相关性系数之和最大的核有多个,则随机选取一个作为传感器的放置位置。
步骤2.5、 将该核以及与该核具有高相关性的核从需放置热传感器的核集合φ中剔除,同时更新矩阵
Figure 284161DEST_PATH_IMAGE004
,以及核-高相关性核数矩阵
Figure 816642DEST_PATH_IMAGE002
步骤2.6、判断需放置热传感器的核集合是否为空,若不为空,则跳转至步骤2.3,若需放置热传感器的核集合为空,则确定热传感器分布位置。基于众核芯片核与核之间温度变化之间的相关性确定了热传感器的分布位置,解决了传感器数目较少,温度待测的核数目较多的情况下,热传感器应该放置在哪些核的问题。人工神经网络能够根据核与核之间内在的相关性,利用热传感器获得的个别核的温度计算出众核芯片其他未分配热传感器的核的温度。
在第一方面的一些可实现方式中,步骤二中衡量相关性的方法是计算核与核之间的相关系数,所述相关系数的计算表达式为:
Figure 100002_DEST_PATH_IMAGE006
式中,i和j表示第i和第j个核的温度;
Figure 100002_DEST_PATH_IMAGE008
表示第i个结点和第j个结点温度的协方差,
Figure 100002_DEST_PATH_IMAGE010
表示第i个核的方差;
Figure 100002_DEST_PATH_IMAGE012
表示第j个核的方差。
步骤三中的人工神经网络包含两层隐藏层、一个输入层和一个输出层,层与层之间以全连接方式连接。所述隐藏层的神经元数目和众核芯片的总核数相适配,隐藏层的输出再经过线性整流函数输出;输入数据为热传感器测量得到的所在核的温度值,输出数据为众核芯片所有核的温度。
采用损失函数对所述人工神经网络的权重参数进行调整,其中,所述损失函数表达式为:
Figure 100002_DEST_PATH_IMAGE014
式中,m表示核的总数;
Figure 100002_DEST_PATH_IMAGE016
表示人工神经网络输出结果中第i个核的温度;
Figure 100002_DEST_PATH_IMAGE018
表示第i个核的真实温度;
Figure 100002_DEST_PATH_IMAGE020
表示均方误差。
人工神经网络可以在训练过程中根据客观存在的核与核之间的相关性学习核与核温度之间的对应的函数关系,从而根据输入核的温度信息,计算出未分配热传感器的核的温度信息。
第二方面,提出一种基于相关性和人工神经网络的众核芯片温度重构系统,该系统具体包括:
核温度测量组,由至少一个热传感器构成,用于测量众核芯片的片上温度;
人工神经网络,用于接收核温度测量组采集到的数据,并输出众核芯片每个核上的温度
热传感器分配模块,用于根据通过红外传感器或者仿真等方法得到的先验的所有核的温度数据,计算核与核之间的相关性,完成核温度测量组内部热传感器的位置规划。
在第二方面的一些可实现方式中,采用有限数量的热传感器进行众核芯片核温温度的测量时,进一步的:
首先通过红外传感器或者仿真等方法得到先验的众核芯片所有核的温度数据;其次,进行相关性计算得出核与核之间的温度相关性;再次,将所有核纳入需放置热传感器的核集合中,在该集合中随机选取一个核的位置放置热传感器,并根据相关性的计算结果,将相关性高于预设数值的核从需放置热传感器的核集合中剔除;从次,通过循环迭代的方式对剩下的需要放置热传感器的核进行传感器的放置和归类;最后,当需放置热传感器的核集合为空时,完成有限数量的热传感器位置分布。
在第二方面的一些可实现方式中,完成有限数量的热传感器位置分布后,利用所述核温度测量组对核温度数据进行采集,并将采集到的温度数据传输至人工神经网络中进行温度重构。
实现温度重构的人工神经网络包含两层隐藏层,一个输入层和一个输出层,层与层之间以全连接方式连接,隐藏层的神经元数目和三维位片上众核芯片网络的总核数相适配,隐藏层的输出再经过线性整流函数输出;输入数据为热传感器测量得到的所在核的温度值,输出数据为众核芯片所有核的温度。
在第二方面的一些可实现方式中,相关性计算模块中衡量相关性的方法是计算核与核之间的相关系数,所述相关系数的计算表达式为:
Figure 100002_DEST_PATH_IMAGE006A
式中,i和j表示第i和第j个核的温度;
Figure 481848DEST_PATH_IMAGE008
表示第i个结点和第j个结点温度的协方差,
Figure 217722DEST_PATH_IMAGE010
表示第i个核的方差;
Figure 885464DEST_PATH_IMAGE012
表示第j个核的方差;
人工神经网络中采用损失函数对权重参数进行调整,其中,所述损失函数表达式为:
Figure 100002_DEST_PATH_IMAGE014A
式中,m表示核的总数;
Figure 210135DEST_PATH_IMAGE016
表示人工神经网络输出结果中第i个核的温度;
Figure 406761DEST_PATH_IMAGE018
表示第i个核的真实温度;
Figure 380665DEST_PATH_IMAGE020
表示均方误差。
有益效果:本发明提出了一种基于相关性和人工神经网络的众核芯片温度重构方法及系统,通过计算核与核之间温度的相关系数,分析出核与核由于物理相邻以及特殊位置对路由算法和传输模式的相同敏感程度而产生的内在的温度的联系,并将其按照这种相关性决定传感器的放置位置,使得涵盖所有核的温度信息的同时,所使用的热传感器数目更少。
另一方面,通过人工神经网络学习核与核温度之间的内在联系,得益于热传感器分配算法的优越性,学习到的内在的联系是物理位置的联系以及多种不同工作负载情况下核之间的温度的相关性,因此本发明不止适用单一应用环境,在不同的工作情况下,人工神经网络都能够精确计算出未放置传感器核的温度。
综上所述,本发明的还原精度更高,能够适用于多种工作情况,有更好的灵活性,因此具有良好的实际应用价值。
附图说明
图1是本发明实施例3*3*3众核芯片示意图。
图2是本发明实施例2*2*2众核芯片结构图。
图3是本发明实施例2*2*2众核芯片对应的相关系数矩阵。
图4是本发明实施例在核与核高相关性系数但非简单线性关系下本发明与已有方法重构精度比较。
图5是本发明实施例与现有方法平均温度误差对比的示意图。
图6是本发明实施例与现有方法最大温度误差对比的示意图。
图7是本发明实施例数据处理流程图。
具体实施方式
在下文的描述中,给出了大量具体的细节以便提供对本发明更为彻底的理解。然而,对于本领域技术人员而言显而易见的是,本发明可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本发明发生混淆,对于本领域公知的一些技术特征未进行描述。
申请人认为针对众核芯片上的温度测量时,为了降低投入成本,目前普遍的做法是使用远少于片上众核芯片系统中核数目数量的热传感器来测量并通过计算得出未放置热传感器的核的温度。为了解决热传感器的分配问题,也就是要确定应该在哪些核上面放置热传感器,通常会对温度信号进行频谱分析,在频域信息较多的地方放置传感器或者对温度分析之后找出热点(hotspot),直接在热点处放置传感器,然后使用对应的算法进行温度的重建。上述方法显而易见的是采取这样的措施依赖于片上众核芯片所处的工作状态,当片上众核芯片的负载情况改变的时候,热点的位置也会发生变化,传感器的位置也需要重新确定。
其次目前的基于相关性的传感器分配算法时间复杂度高,同时其采用的温度重构算法为线性回归法。针对具有线性相关关系的两个核,线性回归法可以利用其中一个核的温度较为精确的计算出另一个核的温度。但是值得注意的是,即使两个核之间并不是线性相关,其相关性系数也可能很大,例如变量X和变量X2,两者的相关性约为0.97。在这种情况下,使用线性回归法利用一个核的温度计算另一个核的温度,计算出温度与实际的温度偏差就会比较大。
在本申请中,为了解决上述提出的问题,提出了一种基于相关性和人工神经网络的众核芯片温度重构方法及系统。
实施例一
在本实施例中,提出了一种基于相关性和人工神经网络的众核芯片温度重构方法,用于根据核与核之间温度的相关系数,以及通过人工神经网络挖掘核与核温度之间的内在联系,从而实现众核芯片温度重构,进一步实现利用少量传感器获取整体核芯片的温度,具体划分为以下步骤:
步骤一、由至少一个热传感器构成核温度测量组;
步骤二、判断众核芯片核与核之间的相关性并根据相关性结果确定热传感器分布位置;
步骤三、构建用于温度重构的人工神经网络;
步骤四、利用核温度测量组采集众核芯片上的温度数值;
步骤五、将步骤四中的温度数值传输至人工神经网络中,对众核芯片上所有核的温度进行重构。
基于众核芯片核与核之间温度变化之间的相关性确定了热传感器的分布位置,解决了传感器数目较少,温度待测的核数目较多的情况下,热传感器应该放置在哪些核的问题;人工神经网络能够根据核与核之间内在的相关性,利用热传感器获得的个别核的温度计算出众核芯片其他未分配热传感器的核的温度。
实施例二
在实施例一基础上的进一步实施例中,提出一种相关性分析方法用于确定热传感器的分布位置,从而解决温度待测的核数目较多的情况下,如何对有限的热传感器进行布局。
空间布局中,由于核与核之间物理上相邻,或者是某些特殊位置的点对于路由算法有相似的敏感性,使得众核芯片中的核温度变化具有很强的关联性。为了确定热传感器的分配位置,首先计算众核芯片中核与核之间的相关性系数,然后将所有核纳入“需放置热传感器的核集合φ”中,根据该核集合φ构建“核-高相关性核数矩阵
Figure 586518DEST_PATH_IMAGE002
”,其中
Figure 578745DEST_PATH_IMAGE004
为与φ中相对应核的相关性高于预设数值的核的总数目,根据核-高相关性核数矩阵
Figure 477431DEST_PATH_IMAGE002
,找出
Figure 437165DEST_PATH_IMAGE004
中的最大值,并将最大值对应的核标记为传感器的放置位置,最大值意味着与该核的相关性高于预设数值的核,即具有高相关性的核数目最多。如果与
Figure 181130DEST_PATH_IMAGE004
中最大值对应的核不止一个,需要找出这些核中具有的高相关性系数之和最大的核,并将该核作为传感器的放置位置,如果这些核中具有的高相关性系数之和最大的核有多个,则随机选取一个作为传感器的放置位置。再次将该核以及与该核具有高相关性的核从需放置热传感器的核集合φ中剔除,同时更新矩阵
Figure 90181DEST_PATH_IMAGE004
,以及核-高相关性核数矩阵
Figure 894189DEST_PATH_IMAGE002
,最后通过循环迭代的方式对剩下的需要放置热传感器的核进行传感器的放置和归类,直至“需放置热传感器的核集合”为空。
具体的,衡量相关性的方法是计算核与核之间的相关系数,相关系数的计算公式为:
Figure DEST_PATH_IMAGE006AA
式中,i和j表示第i和第j个核的温度;
Figure 783297DEST_PATH_IMAGE008
表示第i个结点和第j个结点温度的协方差,
Figure 330953DEST_PATH_IMAGE010
表示第i个核的方差;
Figure 297772DEST_PATH_IMAGE012
表示第j个核的方差。
实施例三
在实施例一基础上的进一步实施例中,提出一种温度重构的人工神经网络,用于接收热传感器采集到的温度数据,并根据接收到的温度数据,获取不具备热传感器核的温度数据。
具体的,本事实例中的人工神经网络包含两层隐藏层、一个输入层和一个输出层,层与层之间以全连接方式连接,隐藏层的神经元数目和众核芯片的总核数相适配,隐藏层的输出再经过线性整流函数输出,输入数据为热传感器测量得到的所在核的温度值,输出数据为众核芯片所有核的温度。
为了更好的提高人工神经网络的精准性采用损失函数进行权重参数的调整,其采用的损失函数为:
Figure DEST_PATH_IMAGE014AA
式中,m表示核的总数;
Figure 725211DEST_PATH_IMAGE016
表示人工神经网络输出结果中第i个核的温度;
Figure 144691DEST_PATH_IMAGE018
表示第i个核的真实温度;
Figure 981191DEST_PATH_IMAGE020
表示均方误差(Mean Square Error,MSE)。
人工神经网络可以在训练过程中根据客观存在的核与核之间的相关性学习核与核温度之间的对应的函数关系,从而根据输入核的温度信息,计算出未分配热传感器的核的温度信息。
在人工神经网络中,输入数据为热传感器测量得到的所在核的温度值记为
Figure DEST_PATH_IMAGE022
,
Figure DEST_PATH_IMAGE024
其中L为放置的传感器的数量。其次,两个隐藏层的输出分别表述为:
Figure DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE028
其中
Figure DEST_PATH_IMAGE030
,
Figure DEST_PATH_IMAGE032
分别为第一个隐藏层和第二个隐藏层的输出,relu函数作为激励函数具备分层的非线性映射学习能力,从而使得本技术方法可解决现有技术中的非线性问题,其表达式为:
Figure DEST_PATH_IMAGE034
Figure DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE038
分别为连接输入层和第一层隐藏层,第一层隐藏层和第二层隐藏层的权重矩阵。输出层的函数为:
Figure DEST_PATH_IMAGE040
其中
Figure DEST_PATH_IMAGE042
为连接第二层隐藏层和输出层的权重矩阵,权重矩阵可以通过反向传播不断更新。
实施例四
本实施例将温度重构方法应用于众核芯片,通过有限的热传感器获取片上所有核的温度值。在进一步的实施例中,片上网络的结构为8*8*4,即共有四层,在每一层上有64个核,64个核按照8*8的方阵进行排列。优选实施例中,根据不同注入率,不同路由算法以及不同流量模式下的8*8*4的众核芯片运行不同时刻的温度数据来进一步阐述本实施例。
为了涵盖实际工况中的更多情况,选用多种情况的组合,在实际运用中让热传感器的分配位置不随工作情况的改变而改变,从而提高其灵活性和实用性。在本事实例中选取的数据包注入率最小为0.007,最大为0.025;包含的路由算法有ZXY,XYZ,West-First,North-Last,Fully-Adaptive,OddEven等;包含的流量模式有uniform,transpose-1,hotspot等。
由于核与核之间物理上相邻,或者是某些特殊位置的点对于路由算法有相似的敏感性,使得这些核的温度变化具有很强的关联性。如图1所示,图1显示了一个3*3*3的一个众核芯片示意图,也就是说该众核芯片共有3层,每一层有9个核,每一层的核的分布为二维的3*3的方阵,每一个结点代表一个核。左上角的核A,与核B、核C和核D都是物理上的相邻,由于热传导的原因,核A,核B、核C和核D的温度之间有很强的关联性,也就是说A,B,C,D其中一个核的温度信息包含了另外两个核的温度信息。除此之外,对于左上角的核A和右下角的核E来说,很少有数据包的传输经过这两个核,也就是说这两个核的温度都会低于整个芯片的平均温度,只有少数的数据包传输过程中才会经过A核和E核,所以也可以认为A核的温度和E核的温度也具有强的相关性。接下来通过计算众核芯片所有核温度两两之间的相关性系数,能够判断核与核之间的相关性的大小,示意图如图2所示。
在图2中设置了一个2*2*2的众核芯片结构其对应的相关系数矩阵如图3所示。例如A核和B核之间的相关性为0.9,A核和H核之间的相关性为0.5。为了根据两个核之间的相关性系数来判断两个核之间的相关性是否较大,在此设置一个阈值,两个核之间的相关性系数大于此阈值的,认为这两个核之间的相关性较大,否则就认为这两个核之间没有很强的相关性。接着根据相关性来确定传感器的放置位置。
在进一步的实施例中,先根据图2来说明传感器分配算法的应用,在图2的基础上,阈值预设为0.8,即相关性大于0.8的两个核之间具有强相关性。首先将所有的核归入到“需放置热传感器的核集合φ”中,此时
Figure DEST_PATH_IMAGE044
, 而与A具有高相关性的核有B, D, G共有三个,与B具有高相关性的核有A, C, F三个。同理可以得到
Figure DEST_PATH_IMAGE046
Figure 566631DEST_PATH_IMAGE004
中的最大值为4,与其对应的φ中的核为C和G,而C的高相关性核为B, D, E, H, 相关性之和为
Figure DEST_PATH_IMAGE048
,G的高相关性核为A,E, F, H, 相关性之和为
Figure DEST_PATH_IMAGE050
,因此此时选取C为第一个放置传感器的位置。将C以及B, D, E, H从需放置热传感器的核集合φ中剔除,同时更新矩阵
Figure 164971DEST_PATH_IMAGE004
,以及核-高相关性核数矩阵
Figure 71748DEST_PATH_IMAGE002
,此时
Figure DEST_PATH_IMAGE052
Figure DEST_PATH_IMAGE054
。按照相同的方法,在
Figure 664270DEST_PATH_IMAGE004
中找到最大值为4,相对应的核为G,因此需将G标记为传感器的放置位置,同时将G以及 G的高相关性核A, E, F, H从φ中剔除。此时需放置热传感器的核集合φ为空,即完成了传感器的放置位置C, G。使用本发明中的热传感器分配策略,所有核的温度信息都由相关性被包含在所分配的热传感器所测的温度中,同时每次选取的传感器放置位置都拥有最多数的高相关性核,因此最后所使用的传感器数目较少,当拥有最多数的高相关性核的核不止一个时,将这些核中具有的高相关性系数之和最大的核作为传感器放置位置,这样进一步提高了精度,为后续的温度信息的还原打下基础。
在进一步的对8*8*4的众核芯片实施例中,将热传感器分配算法中的判断核与核温度之间是否具有强相关性的阈值设置为0.935,按照上述的实例方法分配传感器,也就是说明此时所有核的温度信息都被包含在了所分配的热传感器中。在本实施例中,最后所确定的热传感器的数目为24个,相对于总的核数256核来说,占比只有9.37%。传感器分配完毕之后,需要对人工神经网络进行训练。由于众核芯片的核数总数为256,因此隐藏层的神经元数目分别选为290,270。对于每一时刻的众核芯片的温度数据来说,只需将热传感器所在的核的温度作为输入传入人工神经网络进行训练。
在人工神经网络中,输入数据为热传感器测量得到的所在核的温度值记为
Figure 605681DEST_PATH_IMAGE022
,
Figure DEST_PATH_IMAGE056
其次,两个隐藏层的输出分别表述为:
Figure DEST_PATH_IMAGE026A
Figure DEST_PATH_IMAGE028A
其中
Figure 1022DEST_PATH_IMAGE030
,
Figure 395094DEST_PATH_IMAGE032
分别为第一个隐藏层和第二个隐藏层的输出,relu函数为:
Figure DEST_PATH_IMAGE034A
Figure DEST_PATH_IMAGE058
Figure DEST_PATH_IMAGE060
分别为连接输入层和第一层隐藏层,第一层隐藏层和第二层隐藏层的权重矩阵。输出层的函数为:
Figure DEST_PATH_IMAGE040A
可以将上述关系用函数来表示,输出的每个结点都可以表示为输入数据的函数,
Figure DEST_PATH_IMAGE062
由于核与核之间的相关性,核的温度信息大部分都包含在与其相关性较大的几个核之中。而与其相关性较小的核的温度,对计算该核的温度基本没有作用。在此我们假设第i个核与输入中的第j,k,l个核有比较强的相关性,因此输出的结点温度关于输入数据的函数可以表示为:
Figure DEST_PATH_IMAGE064
值得注意的是,经过relu函数的非线性之后,
Figure DEST_PATH_IMAGE066
函数不止局限为线性函数。也就是说
当核之间的关系为非线性相关时,人工神经网络构建的函数
Figure DEST_PATH_IMAGE068
能够根据布置的与其相关性高的传感器的温度,较为精确地计算出该核地温度,解决了使用线性回归方法重构对相关性高但非线性相关的情况下精度较差的问题。通过具体的实验,也可以清楚地看到这一点。图4中,对核97的温度重构分别使用了本发明以及已有的线性回归法,在线性回归法中核97的温度需要利用已放置传感器的核180的温度进行重构。虽然核97和核180两者的相关系数为0.947,但从图4中可以看到,两者之间并不是简单的线性关系,简单使用线性回归会使得重构的精度较差,而使用人工神经网络能够以较高精度进行重构。
训练完成后对温度重构的精度进行测试。在测试阶段,测试了8*8*4的众核芯片在多种注入率以及多种路由算法下,运行uniform,transpose-1,hotspot三种流量模式时的表现情况。具体实施步骤为,将uniform,transpose-1,hotspot三种流量模式的数据,只取热传感器放置处的温度作为输入数据传输到人工神经网络之中,将输出的所有核的温度与实际的所有核的温度进行对比,判断还原的精度。图5和图6显示了与当前比较先进的算法对比的结果,结果显示,本发明在使用相同数目温度传感器热传感器的情况下,精度提升50%以上。
实施例五
在实施例一基础上的进一步实施例中,提出一种基于相关性和人工神经网络的众核芯片温度重构系统用于实现温度重构方法,该系统具体包括:
核温度测量组,由至少一个热传感器构成,用于测量众核芯片的片上温度;
人工神经网络,用于接收核温度测量组采集到的数据,并输出众核芯片每个核上的温度
热传感器分配模块,用于根据通过红外传感器或者仿真等方法得到的先验的所有核的温度数据,计算核与核之间的相关性,完成核温度测量组内部热传感器的位置规划。
在进一步的实施例中,为了降低硬件投入成本,采用有限数量的热传感器进行众核芯片核温温度的测量,具体的,首先通过红外传感器或者仿真方法得到先验的众核芯片所有核的温度数据;其次,进行相关性计算得出核与核之间的温度相关性;再次,随机选取一个核作为第一个热传感器的放置位置,并将与其具有高相关性的核与其归为一类,这些核的位置不需要再放置热传感器;从次,通过循环迭代的方式对剩下的需要放置热传感器的核进行传感器的放置和归类;最后,当所有核都被归类后,完成有限数量的热传感器位置分布。
当热传感器的位置确定后,对核温进行温度数据的采集,并将采集到的温度数据传输至人工神经网络中进行温度重构,从而能够根据核与核之间内在的相关性,利用热传感器获得的个别核的温度计算出众核芯片其他未分配热传感器的核的温度。
在进一步的实施例中,实现温度重构的人工神经网络包含两层隐藏层,一个输入层和一个输出层,层与层之间以全连接方式连接,隐藏层的神经元数目和众核芯片网络的总核数相适配,隐藏层的输出再经过线性整流函数(Rectified Linear Unit,ReLU)输出,输入数据为热传感器测量得到的所在核的温度值,输出数据为众核芯片所有核的温度。
本发明通过计算核与核之间温度的相关系数,分析出核与核由于物理相邻以及特殊位置对路由算法和传输模式的相同敏感程度而产生的内在的温度的联系,并将其按照这种相关性强弱进行分类,使得涵盖所有核的温度信息的同时,所使用的热传感器数目更少。
另一方面,通过人工神经网络学习核与核温度之间的内在联系,学习到的内在的联系是物理位置的联系以及多种不同工作负载情况下核之间的温度的相关性,因此该发明不止适用单一应用环境,在不同的工作情况下,人工神经网络都能够精确计算出未放置传感器核的温度。
综上所述,本发明的还原精度更高,能够适用于多种工作情况,有更好的灵活性,因此具有良好的实际应用价值。本发明通过分析多种负载情况下众核芯片的温度情况,根据核与核之间温度的相关系数将核进行了分类。每一类中核与核的物理位置相邻或者是特殊位置对路由算法和传输模式的敏感程度相同,使得这些核的温度具有很强的关联性。人工神经网络能够根据强的相关性,对热传感器所包含的其他核的温度信息进行还原。本发明具有高灵活性,精度高,在多种负载情况下都具有高的精度。
如上所述,尽管参照特定的优选实施例已经表示和表述了本发明,但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下,可对其在形式上和细节上做出各种变化。

Claims (8)

1.一种基于相关性和人工神经网络的众核芯片温度重构方法,其特征在于,具体包括以下步骤:
步骤一、由至少一个热传感器构成核温度测量组;
步骤二、判断众核芯片核与核之间的相关性并根据相关性结果确定热传感器分布位置;
步骤三、构建用于温度重构的人工神经网络;
步骤四、利用核温度测量组采集众核芯片上的温度数值;
步骤五、将步骤四中的温度数值传输至人工神经网络中,对众核芯片上所有核的温度进行重构;
所述步骤二中进一步为:
步骤2.1、计算核与核温度之间的相关性;
步骤2.2、将所有核纳入需放置热传感器的核集合φ中,根据所述核集合φ构建核-高相关性核数矩阵
Figure DEST_PATH_IMAGE002
,其中
Figure DEST_PATH_IMAGE004
为与φ中相对应核的相关性高于预设数值的核的总数目;
步骤2.3、根据核-高相关性核数矩阵
Figure 42782DEST_PATH_IMAGE002
,找出
Figure 913917DEST_PATH_IMAGE004
中的最大值,并将最大值对应的核标记为传感器的放置位置,最大值意味着与该核的相关性高于预设数值的核,即具有高相关性的核数目最多;
步骤2.4、 对于步骤2.3,如果与
Figure 162496DEST_PATH_IMAGE004
中最大值对应的核不止一个,需要找出这些核中具有的高相关性系数之和最大的核,并将当前核作为传感器的放置位置,如果这些核中具有的高相关性系数之和最大的核有多个,则随机选取一个作为传感器的放置位置;
步骤2.5、 将当前核以及与当前核具有高相关性的核从需放置热传感器的核集合φ中剔除,同时更新矩阵
Figure 26547DEST_PATH_IMAGE004
,以及核-高相关性核数矩阵
Figure 309761DEST_PATH_IMAGE002
步骤2.6、判断需放置热传感器的核集合是否为空,若不为空,则跳转至步骤2.3,若需放置热传感器的核集合为空,则确定热传感器分布位置;
所述步骤二中衡量相关性的方法是计算核与核温度之间的相关系数,所述相关系数的计算表达式为:
Figure DEST_PATH_IMAGE006
式中,i和j表示第i和第j个核的温度;
Figure DEST_PATH_IMAGE008
表示第i个结点和第j个结点温度的协方差,
Figure DEST_PATH_IMAGE010
表示第i个核的方差;
Figure DEST_PATH_IMAGE012
表示第j个核的方差。
2.根据权利要求1所述的一种基于相关性和人工神经网络的众核芯片温度重构方法,其特征在于,步骤三中的人工神经网络包含两层隐藏层、一个输入层和一个输出层,层与层之间以全连接方式连接;
所述隐藏层的神经元数目和众核芯片的总核数相适配,隐藏层的输出再经过线性整流函数输出;输入数据为热传感器测量得到的所在核的温度值,输出数据为众核芯片所有核的温度。
3.根据权利要求2所述的一种基于相关性和人工神经网络的众核芯片温度重构方法,其特征在于,
采用损失函数对所述人工神经网络的权重参数进行调整,其中,所述损失函数表达式为:
Figure DEST_PATH_IMAGE014
式中,m表示核的总数;
Figure DEST_PATH_IMAGE016
表示人工神经网络输出结果中第i个核的温度;
Figure DEST_PATH_IMAGE018
表示第i个核的真实温度;
Figure DEST_PATH_IMAGE020
表示均方误差。
4.一种基于相关性和人工神经网络的众核芯片温度重构系统,用于实现权利要求1~3任意一项方法,其特征在于,具体包括:
核温度测量组,由至少一个热传感器构成,用于测量众核芯片的片上温度;
人工神经网络,用于接收核温度测量组采集到的数据,并输出众核芯片每个核上的温度;
热传感器分配模块,用于根据通过红外传感器或者仿真方法得到的先验的所有核的温度数据,计算核与核之间的相关性,完成核温度测量组内部热传感器的位置规划。
5.根据权利要求4所述的一种基于相关性和人工神经网络的众核芯片温度重构系统,其特征在于,对有限数目的热传感器进行位置分配时,进一步的:
首先通过红外传感器或者仿真方法得到先验的众核芯片所有核的温度数据;其次,进行相关性计算得出核与核之间的温度相关性;再次,随机选取一个核作为第一个热传感器的放置位置,并将与其具有高相关性的核与其归为一类,这些核的位置不需要再放置热传感器;从次,通过循环迭代的方式对剩下的需要放置热传感器的核进行传感器的放置和归类;最后,当所有核都被归类后,完成有限数量的热传感器位置分布。
6.根据权利要求5所述的一种基于相关性和人工神经网络的众核芯片温度重构系统,其特征在于,完成有限数量的热传感器位置分布后,利用所述核温度测量组对核温度数据进行采集,并将采集到的温度数据传输至人工神经网络中进行温度重构。
7.根据权利要求4所述的一种基于相关性和人工神经网络的众核芯片温度重构系统,其特征在于,实现温度重构的人工神经网络包含两层隐藏层,一个输入层和一个输出层,层与层之间以全连接方式连接,隐藏层的神经元数目和众核芯片网络的总核数相适配,隐藏层的输出再经过线性整流函数输出;输入数据为热传感器测量得到的所在核的温度值,输出数据为众核芯片所有核的温度。
8.根据权利要求4所述的一种基于相关性和人工神经网络的众核芯片温度重构系统,其特征在于,
热传感器分配模块中衡量相关性的方法是计算核与核之间的相关系数,所述相关系数的计算表达式为:
Figure DEST_PATH_IMAGE006A
式中,i和j表示第i和第j个核的温度;
Figure 224234DEST_PATH_IMAGE008
表示第i个结点和第j个结点温度的协方差,
Figure 960108DEST_PATH_IMAGE010
表示第i个核的方差;
Figure 627850DEST_PATH_IMAGE012
表示第j个核的方差;
人工神经网络中采用损失函数对权重参数进行调整,其中,所述损失函数表达式为:
Figure DEST_PATH_IMAGE014A
式中,m表示核的总数;
Figure 952521DEST_PATH_IMAGE016
表示人工神经网络输出结果中第i个核的温度;
Figure 414726DEST_PATH_IMAGE018
表示第i个核的真实温度;
Figure 637897DEST_PATH_IMAGE020
表示均方误差。
CN202111035472.7A 2021-09-06 2021-09-06 一种基于相关性和人工神经网络的众核芯片温度重构方法 Active CN113467590B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111035472.7A CN113467590B (zh) 2021-09-06 2021-09-06 一种基于相关性和人工神经网络的众核芯片温度重构方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111035472.7A CN113467590B (zh) 2021-09-06 2021-09-06 一种基于相关性和人工神经网络的众核芯片温度重构方法

Publications (2)

Publication Number Publication Date
CN113467590A CN113467590A (zh) 2021-10-01
CN113467590B true CN113467590B (zh) 2021-12-17

Family

ID=77867547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111035472.7A Active CN113467590B (zh) 2021-09-06 2021-09-06 一种基于相关性和人工神经网络的众核芯片温度重构方法

Country Status (1)

Country Link
CN (1) CN113467590B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116678086B (zh) * 2023-04-27 2024-01-30 深圳市众信海科技有限公司 基于卷积神经网络的室内温度控制方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2715298A2 (en) * 2011-06-03 2014-04-09 Vlaamse Instelling voor Technologisch Onderzoek (VITO) Method and system for buffering thermal energy and thermal energy buffer system
CN108416164A (zh) * 2018-03-23 2018-08-17 南京大学 基于有限数目温度传感器的三维片上网络温度重建系统
CN108536931A (zh) * 2018-03-23 2018-09-14 南京大学 基于贪婪算法的三维片上网络中温度传感器的部署方法
CN109902807A (zh) * 2019-02-27 2019-06-18 电子科技大学 一种基于循环神经网络的众核芯片分布式热建模方法
CN110134567A (zh) * 2019-04-30 2019-08-16 西北工业大学 基于卷积神经网络的微处理器非均匀采样热分布重构方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11295204B2 (en) * 2017-01-06 2022-04-05 International Business Machines Corporation Area-efficient, reconfigurable, energy-efficient, speed-efficient neural network substrate
US10296060B2 (en) * 2017-05-26 2019-05-21 Dell Products L.P. Systems and methods for automated configuration restrictions and compliance of temperature
US11334398B2 (en) * 2018-08-29 2022-05-17 International Business Machines Corporation Learning-based thermal estimation in multicore architecture
CN111401546B (zh) * 2020-02-11 2023-12-08 华为技术有限公司 神经网络模型的训练方法及其介质和电子设备
CN111339027B (zh) * 2020-02-25 2023-11-28 中国科学院苏州纳米技术与纳米仿生研究所 可重构的人工智能核心与异构多核芯片的自动设计方法
CN112084038B (zh) * 2020-09-23 2021-10-15 安徽寒武纪信息科技有限公司 神经网络的内存分配方法及装置
CN113065229A (zh) * 2021-03-10 2021-07-02 电子科技大学 一种众核暗硅芯片的实时功率预算技术

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2715298A2 (en) * 2011-06-03 2014-04-09 Vlaamse Instelling voor Technologisch Onderzoek (VITO) Method and system for buffering thermal energy and thermal energy buffer system
CN108416164A (zh) * 2018-03-23 2018-08-17 南京大学 基于有限数目温度传感器的三维片上网络温度重建系统
CN108536931A (zh) * 2018-03-23 2018-09-14 南京大学 基于贪婪算法的三维片上网络中温度传感器的部署方法
CN109902807A (zh) * 2019-02-27 2019-06-18 电子科技大学 一种基于循环神经网络的众核芯片分布式热建模方法
CN110134567A (zh) * 2019-04-30 2019-08-16 西北工业大学 基于卷积神经网络的微处理器非均匀采样热分布重构方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Thermal monitoring of real processors:Techniques for sensor allocation andfull characterization";A.N.Nowroz;《Design Automation Conference》;20101231;第56-61页 *
"一种非均匀采样重构芯片热信号的方法";柯然;《信息技术》;20110925;第35卷(第9期);第1-4页 *

Also Published As

Publication number Publication date
CN113467590A (zh) 2021-10-01

Similar Documents

Publication Publication Date Title
Zamzam et al. Physics-aware neural networks for distribution system state estimation
CN106373025B (zh) 基于离群点检测的用电信息采集系统实时防窃电监测方法
CN108197014B (zh) 故障诊断方法、装置及计算机设备
US20150095000A1 (en) Optimal sensor and actuator deployment for system design and control
CN113673196B (zh) 一种基于可布线性预测的全局布线优化方法
Marbini et al. Adaptive sampling mechanisms in sensor networks
US20240110956A1 (en) Current sensor, current measurement device, system and apparatus, and storage medium
TWI689724B (zh) 晶片溫度計算方法及晶片溫度計算裝置
CN113467590B (zh) 一种基于相关性和人工神经网络的众核芯片温度重构方法
CN111862595B (zh) 基于路网拓扑关系的速度预测方法、系统、介质及设备
Ma et al. Comparison of machine learning techniques for predictive modeling of high-speed links
CN109189868A (zh) 坐标转换的方法、装置、计算机设备和存储介质
CN114781201A (zh) 一种散热器内pcb温度场的计算方法、系统、装置及介质
Shin et al. Gaussian radial basis functions for simulation metamodeling
Chen et al. Thermal sensor placement for multicore systems based on low-complex compressive sensing theory
CN108536931A (zh) 基于贪婪算法的三维片上网络中温度传感器的部署方法
CN113988304A (zh) 磁通串扰的标定方法、装置、计算机设备和存储介质
TWI296087B (en) Fuzzy reasoning model for semiconductor process fault detection using wafer acceptance test data
CN112860531B (zh) 基于深度异构图神经网络的区块链广泛共识性能评测方法
KR20220147036A (ko) 생산 과정을 통하여 생산되는 제품 관련 예측 수행 방법
Hattori et al. Crack identification in magnetoelectroelastic materials using neural networks, self-organizing algorithms and boundary element method
TWI747130B (zh) 基於硬體結構感知之自適應學習式功率建模方法與系統
CN108090865A (zh) 光学卫星遥感影像在轨实时流式处理方法及系统
CN112926259A (zh) 一种基于rbf神经网络模型预测半导体器件结温的方法
CN108614004B (zh) 一种冷却曲线的拟合方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant