CN111338904B - 一种计算板芯片温度异常的侦测方法 - Google Patents

一种计算板芯片温度异常的侦测方法 Download PDF

Info

Publication number
CN111338904B
CN111338904B CN202010138479.0A CN202010138479A CN111338904B CN 111338904 B CN111338904 B CN 111338904B CN 202010138479 A CN202010138479 A CN 202010138479A CN 111338904 B CN111338904 B CN 111338904B
Authority
CN
China
Prior art keywords
chip
temperature
average
block
temperature rise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010138479.0A
Other languages
English (en)
Other versions
CN111338904A (zh
Inventor
付海旭
王大岁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Conglian Information Technology Co ltd
Original Assignee
Shanghai Conglian Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Conglian Information Technology Co ltd filed Critical Shanghai Conglian Information Technology Co ltd
Priority to CN202010138479.0A priority Critical patent/CN111338904B/zh
Publication of CN111338904A publication Critical patent/CN111338904A/zh
Application granted granted Critical
Publication of CN111338904B publication Critical patent/CN111338904B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01KMEASURING TEMPERATURE; MEASURING QUANTITY OF HEAT; THERMALLY-SENSITIVE ELEMENTS NOT OTHERWISE PROVIDED FOR
    • G01K13/00Thermometers specially adapted for specific purposes
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R31/00Arrangements for testing electric properties; Arrangements for locating electric faults; Arrangements for electrical testing characterised by what is being tested not provided for elsewhere
    • G01R31/28Testing of electronic circuits, e.g. by signal tracer
    • G01R31/2851Testing of integrated circuits [IC]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3031Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a motherboard or an expansion card

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Mathematical Physics (AREA)
  • Cooling Or The Like Of Semiconductors Or Solid State Devices (AREA)
  • Cooling Or The Like Of Electrical Apparatus (AREA)

Abstract

本发明提供了一种计算板芯片温度异常的侦测方法,包括如下步骤:分别求出计算板上每颗芯片的温升以及全部芯片的平均温升,随后将每颗芯片的温升与平均温升进行对照,若单颗芯片的温升与平均温升的差大于安全阈值,则代表存在温度异常。通过计算芯片的平均温升,均化了温度传感器的误差,提高了精确度,以该平均温升作为参照量,能够在对温度传感器器精度要求不高的前提下准确的侦测芯片是否温度异常。降低了对温度传感器的精度要求,减少了成本开支。

Description

一种计算板芯片温度异常的侦测方法
技术领域
本发明涉及区块链技术领域,尤其涉及一种计算板芯片温度异常的侦测方法。
背景技术
区块链服务器计算板由上百颗运算芯片组成,在运算中会产生大量的热量。散热主要通过芯片上的散热片导热和风扇来实现,在长途运输和周转过程中,散热片容易变形或松动,导致个别运算芯片无法正常散热,造成设备损毁,甚至酿成火灾。
现有技术多通过侦测运算芯片温度来判断是否存在散热功能异常,由于各种原因(主要是老化)每颗芯片温度传感器读数都会有一定误差,导致判断不准确或不会一直准确。为解决该问题,需要在芯片量产时对温度传感器功能进行更严格的筛选,导致芯片良率降低,单位成本增高。
发明内容
本发明所要解决的技术问题是提供一种新型的计算板芯片温度异常的侦测方法,能够降低单颗芯片的温度传感器精度要求,进而降低整体成本。
本发明通过以下方式解决该技术问题:
一种计算板芯片温度异常的侦测方法,其特征在于;包括如下步骤:
开机时,测量每颗芯片的初始温度Ti,并计算求出芯片的平均初始温度TS
在计算板处于工作状态时,实时测量每颗芯片的工作温度ti,并计算求出芯片的平均工作温度ts
实时计算每颗芯片的温升ti’以及芯片的平均温升ts’;所述温升ti’为所述工作温度ti与所述初始温度Ti的差值;所述平均温升ts’为所述平均工作温度ts与所述平均初始温度Ts的差值;
定义芯片的温升ti’与芯片的平均温升ts’的差的安全阈值Tth
若芯片的温升ti’与芯片平均温升ts’的差大于所述安全阈值Tth,所述芯片存在温度异常。
采用温升作为对照参数,能够抵消温度传感器的基准量偏差,提高精度。通过计算芯片的平均温升,均化了温度传感器的误差,进一步提高了精确度,以该平均温升作为参照量,能够在对温度传感器器精度要求不高的前提下准确的侦测芯片是否温度异常,降低了对温度传感器的精度要求,减少了成本开支。
作为本发明的一种优选实施方式,所述安全阈值Tth为15℃-20℃。
作为本发明的一种优选实施方式,所述芯片的工作温度ti每间隔五秒测量一次。
作为本发明的一种优选实施方式,所述计算板上的芯片分为靠近进风口的进风区块、靠近出风口的出风区块以及位于进风区块与出风区块间的中间区块,分别对所述进风区块、中间区块与出风区块上的芯片进行温度异常的侦测。
由于进风区块、中间区块和出风区块的芯片温度差异较大,对位于其中的芯片进行分别检测能够进一步的提高测量精度。
作为本发明的一种优选实施方式,该温度异常的侦测步骤如下:
计算板开机时,测量每颗芯片的初始温度Ti,并计算求出进风区块处芯片的平均初始温度Ts1;中间区块处芯片的平均初始温度Ts2和出风区块处芯片的平均初始温度Ts3
在计算板处于工作状态时,实时测量芯片的工作温度ti,并计算求出进风区块处芯片的平均工作温度ts1;中间区块处芯片的平均工作温度ts2以及出风区块处芯片的平均工作温度ts3
计算进风区块处芯片的温升ti1’和平均温升ts1’;中间区块处的芯片的温升ti2’和平均温升ts2’以及出风区块处芯片的温升ti3’和平均温升ts3’;
定义进风区块处芯片的温升ti1’与平均温升ts1’的差的安全阈值Tth1;中间区块处芯片的温升ti2’与平均温升ts2’的差的安全阈值Tth2;出风区块处芯片的温升ti3’与平均温升ts2’的差的安全阈值Tth3
若进风区块处芯片的温升ti1’与平均温升ts1’的差大于安全阈值Tth1,芯片存在温度异常;若中间区块处芯片的温升ti2’与平均温升ts2’的差大于安全阈值Tth2,芯片存在温度异常;若出风区块处芯片的温升ti3’与平均温升ts3’的差大于安全阈值Tth3,芯片存在温度异常。
综上所述,本发明能够在对温度传感器器精度要求不高的前提下准确的侦测芯片是否温度异常,从而节约生产成本。
附图说明
下面结合图片来对本发明进行进一步的说明:
图1为本发明中计算板的示意图;
图2为本发明中温度异常的侦测流程图;
其中:100-计算板,101-进风口,102-出风口,200-芯片,201-进风区块,202-中间区块,203-出风区块。
具体实施方式
以下通过具体实施例来对本发明进行进一步阐述:
一种计算板芯片温度异常的侦测方法,其步骤如下:
计算板100开机时,测量每颗芯片200的初始温度Ti,并计算求出芯片200的平均初始温度TS
在计算板100处于工作状态时,每间隔5秒测量一次每颗芯片200的工作温度ti,并计算求出芯片200的平均工作温度ts
计算每颗芯片200的温升ti’以及芯片200的平均温升ts’;该温升ti’为工作温度ti与初始温度Ti的差值;该平均温升ts’为平均工作温度ts与平均初始温度Ts的差值;
定义芯片200的温升ti’与平均温升ts’的差的安全阈值Tth,该安全阈值Tth的范围为15℃到20℃,通常来说,温度传感器的误差越大,所需的安全阈值Tth也就越大;
若芯片200的温升ti’与芯片200平均温升ts’的差小于等于安全阈值Tth,芯片200温度正常,若大于安全阈值Tth,芯片200存在温度异常。
通过计算芯片200的平均温升ts’,均化了温度传感器的误差,提高了精确度,以该平均温升ts’作为参照量,能够在对温度传感器器精度要求不高的前提下准确的侦测芯片200是否存在温度异常,降低了对温度传感器的精度要求,减少了成本开支。
另外,采用温升ti’与平均温升ts’作为对照参数,还能够抵消温度传感器的基准量偏差,获得更好的测量精度。
为更进一步的提高测量精度,如图1所示,将本发明的计算板100上的芯片200分为靠近进风口101的进风区块201、靠近出风口102的出风区块203以及位于进风区块201与出风区块203间的中间区块202,对三个区块上的芯片200分别进行温度异常的侦测。
具体的,如图2所示,该温度异常的侦测步骤如下:
计算板100开机时,测量每颗芯片200的初始温度Ti,并计算求出进风区块201处芯片200的平均初始温度Ts1;中间区块202处芯片200的平均初始温度Ts2和出风区块203处芯片200的平均初始温度Ts3
在计算板100处于工作状态时,每隔5秒测量一次芯片200的工作温度ti,并计算求出进风区块201处芯片200的平均工作温度ts1;中间区块202处芯片200的平均工作温度ts2以及出风区块203处的平均工作温度ts3
计算进风区块201处芯片200的温升ti1’;中间区块202处的芯片200的温升ti2’以及出风区块203处芯片200的温升ti3’,其中,温升ti1’为进风区块201处芯片200的工作温度ti和初始温度Ti间的差值;温升ti2’为中间区块202处芯片200的工作温度ti与初始温度Ti间的差值;温升ti3’为出风区块203处芯片200的工作温度ti与初始温度Ti间的差值;
计算进风区块201处芯片200的平均温升ts1’;中间区块202处芯片200的平均温升ts2’以及出风区块203处芯片200的平均温升ts3’,其中,平均温升ts1’为进风区块201处芯片200的平均工作温度ts1与平均初始温度Ts1间的差值;平均温升ts2’为中间区块202处芯片200的平均工作温度ts2与平均初始温度Ts2间的差值;平均温升ts3’为出风区块203处芯片200的平均工作温度ts3与平均初始温度Ts3的差值;
定义进风区块201处芯片200的温升ti1’与平均温升ts1’的差的安全阈值Tth1;中间区块202处芯片200的温升ti2’与平均温升ts2’的差的安全阈值Tth2;出风区块203处芯片200的温升ti3’与平均温升ts2’的差的安全阈值Tth3;安全阈值Tth1、Tth2、Tth3的范围为15℃-20℃;
若进风区块201处芯片200的温升ti1’与平均温升ts1’的差小于等于安全阈值Tth1,芯片温度正常,若大于安全阈值Tth1,芯片200存在温度异常;
若中间区块202处芯片200的温升ti2’与平均温升ts2’的差小于等于安全阈值Tth2,芯片温度正常,若大于安全阈值Tth2,芯片200存在温度异常;
若出风区块203处芯片200的温升ti3’与平均温升ts3’的差小于等于安全阈值Tth3,,芯片温度正常,若大于安全阈值Tth3,芯片200存在温度异常。
由于散热布局的原因,进风区块201、中间区块202和出风区块203的芯片200温度差异较大,对位于其中的芯片200进行分别检测,可以更好的提高测量精度,并再度降低对温度传感器自身的精度要求,更好的节省成本。
综合以上,采用本计算板芯片温度异常的侦测方法,能够降低单颗芯片的温度传感器精度要求,进而降低整体成本。
但是,本技术领域中的普通技术人员应当认识到,以上的实施例仅是用说明本发明,而并非用作为对本发明的限定,只要在本发明的实质精神范围内,对以上所述实施例的变化、变型都将落在本发明的权利要求书范围内。

Claims (5)

1.一种计算板芯片温度异常的侦测方法,其特征在于;包括如下步骤:
计算板(100)开机时,测量每颗芯片(200)的初始温度Ti,并计算求出芯片(200)的平均初始温度TS
在计算板(100)处于工作状态时,实时测量每颗芯片(200)的工作温度ti,并计算求出芯片(200)的平均工作温度ts
实时计算每颗芯片(200)的温升ti’以及芯片(200)的平均温升ts’,所述温升ti’为所述工作温度ti与所述初始温度Ti的差值,所述平均温升ts’为所述平均工作温度ts与所述平均初始温度Ts的差值;
定义芯片(200)的温升ti’与芯片(200)的平均温升ts’的差的安全阈值Tth
若芯片(200)的温升ti’与芯片(200)平均温升ts’的差大于所述安全阈值Tth,所述芯片(200)存在温度异常。
2.按照权利要求1所述的计算板芯片温度异常的侦测方法,其特征在于:所述安全阈值Tth为15℃-20℃。
3.按照权利要求1所述的计算板芯片温度异常的侦测方法,其特征在于:所述芯片(200)的工作温度ti每间隔5秒测量一次。
4.按照权利要求1所述的计算板芯片温度异常的侦测方法,其特征在于:所述计算板(100)上的芯片(200)分为靠近进风口(101)的进风区块(201)、靠近出风口(102)的出风区块(203)以及位于进风区块(201)与出风区块(203)间的中间区块(202),分别对所述进风区块(201)、中间区块(202)与出风区块(203)上的芯片(200)进行温度异常的侦测。
5.按照权利要求4所述的计算板芯片温度异常的侦测方法,其特征在于:所述温度异常的侦测步骤如下:
计算板(100)开机时,测量每颗芯片(200)的初始温度Ti,并计算求出进风区块(201)处芯片(200)的平均初始温度Ts1;中间区块(202)处芯片(200)的平均初始温度Ts2和出风区块(203)处芯片(200)的平均初始温度Ts3
在计算板(100)处于工作状态时,实时测量芯片(200)的工作温度ti,并计算求出进风区块(201)处芯片(200)的平均工作温度ts1;中间区块(202)处芯片(200)的平均工作温度ts2以及出风区块(203)处芯片(200)的平均工作温度ts3
计算进风区块(201)处芯片(200)的温升ti1’和平均温升ts1’;中间区块(202)处的芯片(200)的温升ti2’和平均温升ts2’以及出风区块(203)处芯片(200)的温升ti3’和平均温升ts3’;
定义进风区块(201)处芯片(200)的温升ti1’与平均温升ts1’的差的安全阈值Tth1;中间区块(202)处芯片(200)的温升ti2’与平均温升ts2’的差的安全阈值Tth2;出风区块(203)处芯片(200)的温升ti3’与平均温升ts2’的差的安全阈值Tth3
若进风区块(201)处芯片(200)的温升ti1’与平均温升ts1’的差大于安全阈值Tth1,芯片(200)存在温度异常;若中间区块(202)处芯片(200)的温升ti2’与平均温升ts2’的差大于安全阈值Tth2,芯片(200)存在温度异常;若出风区块(203)处芯片(200)的温升ti3’与平均温升ts3’的差大于安全阈值Tth3,芯片(200)存在温度异常。
CN202010138479.0A 2020-03-03 2020-03-03 一种计算板芯片温度异常的侦测方法 Active CN111338904B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010138479.0A CN111338904B (zh) 2020-03-03 2020-03-03 一种计算板芯片温度异常的侦测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010138479.0A CN111338904B (zh) 2020-03-03 2020-03-03 一种计算板芯片温度异常的侦测方法

Publications (2)

Publication Number Publication Date
CN111338904A CN111338904A (zh) 2020-06-26
CN111338904B true CN111338904B (zh) 2023-01-31

Family

ID=71183907

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010138479.0A Active CN111338904B (zh) 2020-03-03 2020-03-03 一种计算板芯片温度异常的侦测方法

Country Status (1)

Country Link
CN (1) CN111338904B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114777958B (zh) * 2022-06-20 2022-10-28 深圳比特微电子科技有限公司 芯片散热状况检测方法、装置、电子设备及存储介质
CN116819287B (zh) * 2023-08-28 2023-11-17 成都电科星拓科技有限公司 一种电源ic自检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013031900A1 (ja) * 2011-08-31 2013-03-07 シャープ株式会社 配線欠陥検出方法および配線欠陥検出装置、並びに半導体基板の製造方法
CN103487696A (zh) * 2013-09-26 2014-01-01 长城汽车股份有限公司 一种母排温升一致性评价方法及装置
CN108955924A (zh) * 2018-05-02 2018-12-07 青岛海信电器股份有限公司 结温和温升报警装置和方法
CN109906016A (zh) * 2017-12-11 2019-06-18 迈普通信技术股份有限公司 通信设备散热控制系统及方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104776604B (zh) * 2015-03-31 2018-06-08 芜湖美的厨卫电器制造有限公司 电热水器的防干烧控制方法和电热水器
CN108146267A (zh) * 2017-12-19 2018-06-12 西安特锐德智能充电科技有限公司 充电系统、充电机、电动汽车、充电电池的安全防护方法
CN109927587A (zh) * 2019-03-12 2019-06-25 湖南秒冲新能源科技有限责任公司 智能充电方法、充电电池、充电系统及计算机存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013031900A1 (ja) * 2011-08-31 2013-03-07 シャープ株式会社 配線欠陥検出方法および配線欠陥検出装置、並びに半導体基板の製造方法
CN103487696A (zh) * 2013-09-26 2014-01-01 长城汽车股份有限公司 一种母排温升一致性评价方法及装置
CN109906016A (zh) * 2017-12-11 2019-06-18 迈普通信技术股份有限公司 通信设备散热控制系统及方法
CN108955924A (zh) * 2018-05-02 2018-12-07 青岛海信电器股份有限公司 结温和温升报警装置和方法

Also Published As

Publication number Publication date
CN111338904A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN111338904B (zh) 一种计算板芯片温度异常的侦测方法
US7370242B2 (en) Thermal monitoring and response apparatus and method for computer unit
US8009418B2 (en) Information processing apparatus
WO2021047235A1 (zh) 温度检测装置和方法、电器设备以及非瞬时性计算机可读存储介质
US9482632B2 (en) Abnormality detection device
US9399997B2 (en) Method for detecting heat-dissipating air flow and electronic device using the same
TW201827962A (zh) 機台的預診斷方法及預診斷裝置
TWI687783B (zh) 設備異常偵測方法及系統
US20230280240A1 (en) Abnormality diagnosis device and abnormality diagnosis method
WO2022205493A1 (zh) 测试平台
US11237547B2 (en) Information processing device, information processing method, and program
CN116955045B (zh) 一种远程jtag多路复用测试方法及系统
JP7481976B2 (ja) 異常スコア算出装置、異常スコア算出方法およびプログラム
CN108254670A (zh) 用于高速交换SoC的健康监控电路结构
KR101615345B1 (ko) 반도체 생산 공정에서 센서 데이터들을 이용하여 웨이퍼의 수율을 분석하는 방법
TWI461871B (zh) 多機台之監控方法
CN116108366A (zh) 一种面向航空发动机滑油系统的故障诊断方法
CN106054601B (zh) 确定防滑刹车控制装置低温故障分布的方法
TWI745912B (zh) 高爐之異常判定裝置、高爐之異常判定方法及高爐之操作方法
CN113405743B (zh) 一种基于云计算的新能源电动汽车生产制造测试数据分析处理方法、系统及存储介质
CN109063218A (zh) 一种统计过程的控制方法和系统
CN104078381A (zh) 一种量测机台监测图规格界限设定的方法
CN104183511A (zh) 一种确定晶圆测试数据规范的界限的方法及晶粒标记方法
CN207339716U (zh) 电源内置风扇的监控装置
CN107919835B (zh) 电动机驱动装置以及电动机驱动方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant