CN111290920A - 基于peci总线测试cpu温度的系统、方法及存储介质 - Google Patents

基于peci总线测试cpu温度的系统、方法及存储介质 Download PDF

Info

Publication number
CN111290920A
CN111290920A CN202010130567.6A CN202010130567A CN111290920A CN 111290920 A CN111290920 A CN 111290920A CN 202010130567 A CN202010130567 A CN 202010130567A CN 111290920 A CN111290920 A CN 111290920A
Authority
CN
China
Prior art keywords
cpu
temperature value
temperature
peci bus
testing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010130567.6A
Other languages
English (en)
Other versions
CN111290920B (zh
Inventor
刘凤霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010130567.6A priority Critical patent/CN111290920B/zh
Publication of CN111290920A publication Critical patent/CN111290920A/zh
Application granted granted Critical
Publication of CN111290920B publication Critical patent/CN111290920B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3027Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a bus

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本发明涉及一种基于PECI总线测试CPU温度的系统、方法及存储介质,所述的方法包括:S1:对测试环境进行检测,S2:获取ME正常状态下CPU温度值,S3:构造ME异常,S4:PECI总线通道检测,S5:ME恢复。

Description

基于PECI总线测试CPU温度的系统、方法及存储介质
技术领域
本发明属于CPU温度测试技术领域,具体涉及一种基于PECI总线测试CPU温度的系统、方法及存储介质。
背景技术
CPU运行过程中的温度检测是服务器系统检测的重要组成;CPU的运行温度是影响整个服务器工作的重要因素。
现有技术中对CPU的温度检测是BMC(基板管理控制器)间接获取CPU核心温度;采用ipmi指令获取温度传感器采集到的温度数据,无法实现通过PECI直接访问CPU获得温度。
现有技术中通过ipmi指令获取温度传感器采集到的温度数据,偏离CPU的温度真实值,而且需要借助于ME(管理引擎)通道进行数据传递,不仅需要等待时间,而且需要硬件资源和成本。此为现有技术中存在的缺陷和不足。
有鉴于此,本发明提供一种基于PECI总线测试CPU温度的系统、方法及存储介质;以解决现有技术中存在的缺陷和问题,是非常有必要的。
发明内容
针对现有技术的上述不足,本发明提供一种基于PECI总线测试CPU温度的系统、方法及存储介质,以解决上述技术问题。
第一方面,本发明提供一种基于PECI总线测试CPU温度的方法,包括:
S1:对测试环境进行检测
检测待测服务器状态,如果操作系统IP和基板管理控制器IP均处于网络导通状态,则进行测试;否则退出测试;
S2:获取ME正常状态下CPU温度值,
判断ME是否处于正常状态,如果ME处于正常状态则读取CPU的温度值,记为第一温度值;否则退出测试;
S3:构造ME异常,
通过ME异常构造指令促使ME处于异常状态,ME进入异常状态后,基板管理控制器通过PECI总线通道读取CPU的温度值,记为第二温度值;
S4:PECI总线通道检测,
对CPU进行加压处理,并通过PECI总线通道监控CPU温度值,如果CPU温度值比第二温度值高,则PECI总线通道导通;
S5:ME恢复,
重启ME,在超出ME恢复时间后读取到CPU的温度值,则ME恢复成功。
作为优选,所述步骤S2中,通过ME_FW_Status传感器状态判断ME是否处于正常状态;判断结果准确。
作为优选,所述步骤S2中,通过PCH_Temp传感器读取CPU的温度值。
作为优选,所述步骤S4中,通过PTU工具对CPU进行加压;加压效率高,检测及时。
在ME异常后,基板管理控制器控制器通过PECI总线通道获取的第二温度值,比通过ME通道间接获取的第一温度值高,即第二温度值更加接近CPU的核心温度;表明测试准确;否则测试错误。
第二方面,本发明提供一种基于PECI总线测试CPU温度的系统,包括:
测试环境检测模块,
检测待测服务器状态,如果操作系统IP和基板管理控制器IP均处于网络导通状态,则进行测试;否则退出测试;
ME正常状态下获取CPU温度值模块,
判断ME是否处于正常状态,如果ME处于正常状态则读取CPU的温度值,记为第一温度值;否则退出测试;
构造ME异常模块,
通过ME异常构造指令促使ME处于异常状态,ME进入异常状态后,基板管理控制器通过PECI总线通道读取CPU的温度值,记为第二温度值;
PECI总线通道检测模块,
对CPU进行加压处理,并通过PECI总线通道监控CPU温度值,如果CPU温度值比第二温度值高,则PECI总线通道导通;
ME恢复模块,
重启ME,在超出ME恢复时间后读取到CPU的温度值,则ME恢复成功。
作为优选,所述ME正常状态下获取CPU温度值模块中,通过ME_FW_Status传感器状态判断ME是否处于正常状态;判断结果准确。
作为优选,所述ME正常状态下获取CPU温度值模块中,通过PCH_Temp传感器读取CPU的温度值。
作为优选,所述PECI总线通道检测模块中,通过PTU工具对CPU进行加压;加压效率高,检测及时。
第三方面,提供一种计算机存储介质,所述计算机存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法。
本发明的有益效果在于,BMC通过PECI通道获取的CPU温度更接近实际值,而且反应时间更快,通过PECI协议返回的CPU寄存器的温度读值,避免BMC的读取温度的等待时间,不通过ME通道会减少数据的传递,节约硬件资源和成本。
测试PECI通道获取的CPU温度加压后获取的温度比直接获取的温度高,验证PECI通道获取的CPU温度是个可以实时变化的数值,避免是个不变数值带来的测试假pass。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种基于PECI总线测试CPU温度的方法的流程图。
图2是本发明提供的一种基于PECI总线测试CPU温度的系统的原理框图。
其中,1-测试环境检测模块,2-ME正常状态下获取CPU温度值模块,3-构造ME异常模块,4-PECI总线通道检测模块,5-ME恢复模块。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
实施例1:
如图1所示,本实施例提供的一种基于PECI总线测试CPU温度的方法,包括:
S1:对测试环境进行检测
检测待测服务器状态,如果操作系统IP和基板管理控制器IP均处于网络导通状态,则进行测试;否则退出测试;
S2:获取ME正常状态下CPU温度值,
判断ME是否处于正常状态,如果ME处于正常状态则读取CPU的温度值,记为第一温度值;否则退出测试;通过ME_FW_Status传感器状态判断ME是否处于正常状态;判断结果准确;通过PCH_Temp传感器读取CPU的温度值。
S3:构造ME异常,
通过ME异常构造指令促使ME处于异常状态,ME进入异常状态后,基板管理控制器通过PECI总线通道读取CPU的温度值,记为第二温度值;
S4:PECI总线通道检测,
对CPU进行加压处理,并通过PECI总线通道监控CPU温度值,如果CPU温度值比第二温度值高,则PECI总线通道导通;通过PTU工具对CPU进行加压;加压效率高,检测及时。
S5:ME恢复,
重启ME,在超出ME恢复时间后读取到CPU的温度值,则ME恢复成功。
在ME异常后,基板管理控制器控制器通过PECI总线通道获取的第二温度值,比通过ME通道间接获取的第一温度值更加接近CPU的核心温度。
实施例2:
如图2所示,本实施例提供的一种基于PECI总线测试CPU温度的系统,包括:
测试环境检测模块1,
检测待测服务器状态,如果操作系统IP和基板管理控制器IP均处于网络导通状态,则进行测试;否则退出测试;
ME正常状态下获取CPU温度值模块2,
判断ME是否处于正常状态,如果ME处于正常状态则读取CPU的温度值,记为第一温度值;否则退出测试;通过ME_FW_Status传感器状态判断ME是否处于正常状态;判断结果准确;通过PCH_Temp传感器读取CPU的温度值。
构造ME异常模块3,
通过ME异常构造指令促使ME处于异常状态,ME进入异常状态后,基板管理控制器通过PECI总线通道读取CPU的温度值,记为第二温度值;
PECI总线通道检测模块4,
对CPU进行加压处理,并通过PECI总线通道监控CPU温度值,如果CPU温度值比第二温度值高,则PECI总线通道导通;通过PTU工具对CPU进行加压;加压效率高,检测及时。
ME恢复模块5,
重启ME,在超出ME恢复时间后读取到CPU的温度值,则ME恢复成功。
实施例3:本实施例提供一种计算机存储介质,所述计算机存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例1所述的方法。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (9)

1.一种基于PECI总线测试CPU温度的方法,其特征在于,包括以下步骤:
S1:对测试环境进行检测
检测待测服务器状态,如果操作系统IP和基板管理控制器IP均处于网络导通状态,则进行测试;否则退出测试;
S2:获取ME正常状态下CPU温度值,
判断ME是否处于正常状态,如果ME处于正常状态则读取CPU的温度值,记为第一温度值;否则退出测试;
S3:构造ME异常,
通过ME异常构造指令促使ME处于异常状态,ME进入异常状态后,基板管理控制器通过PECI总线通道读取CPU的温度值,记为第二温度值;
S4:PECI总线通道检测,
对CPU进行加压处理,并通过PECI总线通道监控CPU温度值,如果CPU温度值比第二温度值高,则PECI总线通道导通;
S5:ME恢复,
重启ME,在超出ME恢复时间后读取到CPU的温度值,则ME恢复成功。
2.根据权利要求1所述的一种基于PECI总线测试CPU温度的方法,其特征在于,所述步骤S2中,通过ME_FW_Status传感器状态判断ME是否处于正常状态。
3.根据权利要求1或2所述的一种基于PECI总线测试CPU温度的方法,其特征在于,所述步骤S2中,通过PCH_Temp传感器读取CPU的温度值。
4.根据权利要求3所述的一种基于PECI总线测试CPU温度的方法,其特征在于,所述步骤S4中,通过PTU工具对CPU进行加压。
5.一种基于PECI总线测试CPU温度的系统,其特征在于,包括:
测试环境检测模块,
检测待测服务器状态,如果操作系统IP和基板管理控制器IP均处于网络导通状态,则进行测试;否则退出测试;
ME正常状态下获取CPU温度值模块,
判断ME是否处于正常状态,如果ME处于正常状态则读取CPU的温度值,记为第一温度值;否则退出测试;
构造ME异常模块,
通过ME异常构造指令促使ME处于异常状态,ME进入异常状态后,基板管理控制器通过PECI总线通道读取CPU的温度值,记为第二温度值;
PECI总线通道检测模块,
对CPU进行加压处理,并通过PECI总线通道监控CPU温度值,如果CPU温度值比第二温度值高,则PECI总线通道导通;
ME恢复模块,
重启ME,在超出ME恢复时间后读取到CPU的温度值,则ME恢复成功。
6.根据权利要求5所述的一种基于PECI总线测试CPU温度的系统,其特征在于,所述ME正常状态下获取CPU温度值模块中,通过ME_FW_Status传感器状态判断ME是否处于正常状态。
7.根据权利要求5或6所述的一种基于PECI总线测试CPU温度的系统,其特征在于,所述ME正常状态下获取CPU温度值模块中,通过PCH_Temp传感器读取CPU的温度值。
8.根据权利要求7所述的一种基于PECI总线测试CPU温度的系统,其特征在于,所述PECI总线通道检测模块中,通过PTU工具对CPU进行加压。
9.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述权利要求1-4中任一权利要求所述的方法。
CN202010130567.6A 2020-02-28 2020-02-28 基于peci总线测试cpu温度的系统、方法及存储介质 Active CN111290920B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010130567.6A CN111290920B (zh) 2020-02-28 2020-02-28 基于peci总线测试cpu温度的系统、方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010130567.6A CN111290920B (zh) 2020-02-28 2020-02-28 基于peci总线测试cpu温度的系统、方法及存储介质

Publications (2)

Publication Number Publication Date
CN111290920A true CN111290920A (zh) 2020-06-16
CN111290920B CN111290920B (zh) 2022-12-23

Family

ID=71030144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010130567.6A Active CN111290920B (zh) 2020-02-28 2020-02-28 基于peci总线测试cpu温度的系统、方法及存储介质

Country Status (1)

Country Link
CN (1) CN111290920B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145426A (zh) * 2017-05-09 2017-09-08 郑州云海信息技术有限公司 一种bmc 测试me状态异常的方法
CN206684725U (zh) * 2017-05-02 2017-11-28 郑州云海信息技术有限公司 一种基于bmc获取cpu温度的系统
CN108427617A (zh) * 2018-02-28 2018-08-21 郑州云海信息技术有限公司 Bmc获取cpu温度的方法、装置及设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN206684725U (zh) * 2017-05-02 2017-11-28 郑州云海信息技术有限公司 一种基于bmc获取cpu温度的系统
CN107145426A (zh) * 2017-05-09 2017-09-08 郑州云海信息技术有限公司 一种bmc 测试me状态异常的方法
CN108427617A (zh) * 2018-02-28 2018-08-21 郑州云海信息技术有限公司 Bmc获取cpu温度的方法、装置及设备

Also Published As

Publication number Publication date
CN111290920B (zh) 2022-12-23

Similar Documents

Publication Publication Date Title
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
WO2021244535A1 (zh) 车辆软件故障检测方法、装置、设备及存储介质
CN114978883B (zh) 网络唤醒的管理方法、装置、电子设备及存储介质
JPWO2012157471A1 (ja) 複数の制御システムの異常を検知する異常検知システム
CN109725220B (zh) 一种变压器油冷却回路的检测方法、系统及装置
US20220342740A1 (en) Method and Device for Detecting Memory Downgrade Error
CN114281173A (zh) 一种服务器的可靠散热控制方法及装置
CN107590017B (zh) 一种电子设备的检测方法和装置
JP2003122599A (ja) 計算機システムおよび計算機システムにおけるプログラム実行監視方法
CN107943654A (zh) 一种快速判定服务器环境温度监控异常原因的方法
CN113868058A (zh) 一种外设组件高速互联设备故障检测方法、装置及服务器
CN111290920B (zh) 基于peci总线测试cpu温度的系统、方法及存储介质
CN111124809B (zh) 一种服务器传感器系统的测试方法及装置
CN113010341A (zh) 一种故障内存定位的方法和设备
CN116501705A (zh) 基于ras的内存信息收集解析方法、系统、设备及介质
CN115292113B (zh) 对服务器的内存进行故障检测方法、装置及电子设备
CN115934446A (zh) 一种自检方法、服务器、设备和存储介质
CN110058979A (zh) 一种温度读取失败故障的监控方法、bmc及存储介质
CN108880916B (zh) 一种基于iic总线的故障定位方法及系统
CN113064776A (zh) 一种bmc故障的诊断方法及装置
CN111884830A (zh) 一种基于bmc保留故障现场的方法及装置
CN115695159B (zh) 一种设备诊断方法、装置、设备和存储介质
CN115150254B (zh) 一种PCIe链路故障检测方法、检测装置、设备及介质
CN117493127B (zh) 一种应用程序检测方法、装置、设备及介质
CN117439871B (zh) 抄表故障定位方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant