CN111290920A - 基于peci总线测试cpu温度的系统、方法及存储介质 - Google Patents
基于peci总线测试cpu温度的系统、方法及存储介质 Download PDFInfo
- Publication number
- CN111290920A CN111290920A CN202010130567.6A CN202010130567A CN111290920A CN 111290920 A CN111290920 A CN 111290920A CN 202010130567 A CN202010130567 A CN 202010130567A CN 111290920 A CN111290920 A CN 111290920A
- Authority
- CN
- China
- Prior art keywords
- cpu
- temperature value
- temperature
- peci bus
- testing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012360 testing method Methods 0.000 title claims abstract description 53
- 101150039033 Eci2 gene Proteins 0.000 title claims abstract description 52
- 102100021823 Enoyl-CoA delta isomerase 2 Human genes 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000001514 detection method Methods 0.000 claims abstract description 22
- 230000002159 abnormal effect Effects 0.000 claims description 21
- 239000000758 substrate Substances 0.000 claims description 13
- 238000011084 recovery Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 6
- 238000012544 monitoring process Methods 0.000 claims description 6
- 238000006467 substitution reaction Methods 0.000 description 3
- 230000007812 deficiency Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000035484 reaction time Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3058—Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3027—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a bus
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Test And Diagnosis Of Digital Computers (AREA)
Abstract
本发明涉及一种基于PECI总线测试CPU温度的系统、方法及存储介质,所述的方法包括:S1:对测试环境进行检测,S2:获取ME正常状态下CPU温度值,S3:构造ME异常,S4:PECI总线通道检测,S5:ME恢复。
Description
技术领域
本发明属于CPU温度测试技术领域,具体涉及一种基于PECI总线测试CPU温度的系统、方法及存储介质。
背景技术
CPU运行过程中的温度检测是服务器系统检测的重要组成;CPU的运行温度是影响整个服务器工作的重要因素。
现有技术中对CPU的温度检测是BMC(基板管理控制器)间接获取CPU核心温度;采用ipmi指令获取温度传感器采集到的温度数据,无法实现通过PECI直接访问CPU获得温度。
现有技术中通过ipmi指令获取温度传感器采集到的温度数据,偏离CPU的温度真实值,而且需要借助于ME(管理引擎)通道进行数据传递,不仅需要等待时间,而且需要硬件资源和成本。此为现有技术中存在的缺陷和不足。
有鉴于此,本发明提供一种基于PECI总线测试CPU温度的系统、方法及存储介质;以解决现有技术中存在的缺陷和问题,是非常有必要的。
发明内容
针对现有技术的上述不足,本发明提供一种基于PECI总线测试CPU温度的系统、方法及存储介质,以解决上述技术问题。
第一方面,本发明提供一种基于PECI总线测试CPU温度的方法,包括:
S1:对测试环境进行检测
检测待测服务器状态,如果操作系统IP和基板管理控制器IP均处于网络导通状态,则进行测试;否则退出测试;
S2:获取ME正常状态下CPU温度值,
判断ME是否处于正常状态,如果ME处于正常状态则读取CPU的温度值,记为第一温度值;否则退出测试;
S3:构造ME异常,
通过ME异常构造指令促使ME处于异常状态,ME进入异常状态后,基板管理控制器通过PECI总线通道读取CPU的温度值,记为第二温度值;
S4:PECI总线通道检测,
对CPU进行加压处理,并通过PECI总线通道监控CPU温度值,如果CPU温度值比第二温度值高,则PECI总线通道导通;
S5:ME恢复,
重启ME,在超出ME恢复时间后读取到CPU的温度值,则ME恢复成功。
作为优选,所述步骤S2中,通过ME_FW_Status传感器状态判断ME是否处于正常状态;判断结果准确。
作为优选,所述步骤S2中,通过PCH_Temp传感器读取CPU的温度值。
作为优选,所述步骤S4中,通过PTU工具对CPU进行加压;加压效率高,检测及时。
在ME异常后,基板管理控制器控制器通过PECI总线通道获取的第二温度值,比通过ME通道间接获取的第一温度值高,即第二温度值更加接近CPU的核心温度;表明测试准确;否则测试错误。
第二方面,本发明提供一种基于PECI总线测试CPU温度的系统,包括:
测试环境检测模块,
检测待测服务器状态,如果操作系统IP和基板管理控制器IP均处于网络导通状态,则进行测试;否则退出测试;
ME正常状态下获取CPU温度值模块,
判断ME是否处于正常状态,如果ME处于正常状态则读取CPU的温度值,记为第一温度值;否则退出测试;
构造ME异常模块,
通过ME异常构造指令促使ME处于异常状态,ME进入异常状态后,基板管理控制器通过PECI总线通道读取CPU的温度值,记为第二温度值;
PECI总线通道检测模块,
对CPU进行加压处理,并通过PECI总线通道监控CPU温度值,如果CPU温度值比第二温度值高,则PECI总线通道导通;
ME恢复模块,
重启ME,在超出ME恢复时间后读取到CPU的温度值,则ME恢复成功。
作为优选,所述ME正常状态下获取CPU温度值模块中,通过ME_FW_Status传感器状态判断ME是否处于正常状态;判断结果准确。
作为优选,所述ME正常状态下获取CPU温度值模块中,通过PCH_Temp传感器读取CPU的温度值。
作为优选,所述PECI总线通道检测模块中,通过PTU工具对CPU进行加压;加压效率高,检测及时。
第三方面,提供一种计算机存储介质,所述计算机存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法。
本发明的有益效果在于,BMC通过PECI通道获取的CPU温度更接近实际值,而且反应时间更快,通过PECI协议返回的CPU寄存器的温度读值,避免BMC的读取温度的等待时间,不通过ME通道会减少数据的传递,节约硬件资源和成本。
测试PECI通道获取的CPU温度加压后获取的温度比直接获取的温度高,验证PECI通道获取的CPU温度是个可以实时变化的数值,避免是个不变数值带来的测试假pass。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种基于PECI总线测试CPU温度的方法的流程图。
图2是本发明提供的一种基于PECI总线测试CPU温度的系统的原理框图。
其中,1-测试环境检测模块,2-ME正常状态下获取CPU温度值模块,3-构造ME异常模块,4-PECI总线通道检测模块,5-ME恢复模块。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
实施例1:
如图1所示,本实施例提供的一种基于PECI总线测试CPU温度的方法,包括:
S1:对测试环境进行检测
检测待测服务器状态,如果操作系统IP和基板管理控制器IP均处于网络导通状态,则进行测试;否则退出测试;
S2:获取ME正常状态下CPU温度值,
判断ME是否处于正常状态,如果ME处于正常状态则读取CPU的温度值,记为第一温度值;否则退出测试;通过ME_FW_Status传感器状态判断ME是否处于正常状态;判断结果准确;通过PCH_Temp传感器读取CPU的温度值。
S3:构造ME异常,
通过ME异常构造指令促使ME处于异常状态,ME进入异常状态后,基板管理控制器通过PECI总线通道读取CPU的温度值,记为第二温度值;
S4:PECI总线通道检测,
对CPU进行加压处理,并通过PECI总线通道监控CPU温度值,如果CPU温度值比第二温度值高,则PECI总线通道导通;通过PTU工具对CPU进行加压;加压效率高,检测及时。
S5:ME恢复,
重启ME,在超出ME恢复时间后读取到CPU的温度值,则ME恢复成功。
在ME异常后,基板管理控制器控制器通过PECI总线通道获取的第二温度值,比通过ME通道间接获取的第一温度值更加接近CPU的核心温度。
实施例2:
如图2所示,本实施例提供的一种基于PECI总线测试CPU温度的系统,包括:
测试环境检测模块1,
检测待测服务器状态,如果操作系统IP和基板管理控制器IP均处于网络导通状态,则进行测试;否则退出测试;
ME正常状态下获取CPU温度值模块2,
判断ME是否处于正常状态,如果ME处于正常状态则读取CPU的温度值,记为第一温度值;否则退出测试;通过ME_FW_Status传感器状态判断ME是否处于正常状态;判断结果准确;通过PCH_Temp传感器读取CPU的温度值。
构造ME异常模块3,
通过ME异常构造指令促使ME处于异常状态,ME进入异常状态后,基板管理控制器通过PECI总线通道读取CPU的温度值,记为第二温度值;
PECI总线通道检测模块4,
对CPU进行加压处理,并通过PECI总线通道监控CPU温度值,如果CPU温度值比第二温度值高,则PECI总线通道导通;通过PTU工具对CPU进行加压;加压效率高,检测及时。
ME恢复模块5,
重启ME,在超出ME恢复时间后读取到CPU的温度值,则ME恢复成功。
实施例3:本实施例提供一种计算机存储介质,所述计算机存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例1所述的方法。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (9)
1.一种基于PECI总线测试CPU温度的方法,其特征在于,包括以下步骤:
S1:对测试环境进行检测
检测待测服务器状态,如果操作系统IP和基板管理控制器IP均处于网络导通状态,则进行测试;否则退出测试;
S2:获取ME正常状态下CPU温度值,
判断ME是否处于正常状态,如果ME处于正常状态则读取CPU的温度值,记为第一温度值;否则退出测试;
S3:构造ME异常,
通过ME异常构造指令促使ME处于异常状态,ME进入异常状态后,基板管理控制器通过PECI总线通道读取CPU的温度值,记为第二温度值;
S4:PECI总线通道检测,
对CPU进行加压处理,并通过PECI总线通道监控CPU温度值,如果CPU温度值比第二温度值高,则PECI总线通道导通;
S5:ME恢复,
重启ME,在超出ME恢复时间后读取到CPU的温度值,则ME恢复成功。
2.根据权利要求1所述的一种基于PECI总线测试CPU温度的方法,其特征在于,所述步骤S2中,通过ME_FW_Status传感器状态判断ME是否处于正常状态。
3.根据权利要求1或2所述的一种基于PECI总线测试CPU温度的方法,其特征在于,所述步骤S2中,通过PCH_Temp传感器读取CPU的温度值。
4.根据权利要求3所述的一种基于PECI总线测试CPU温度的方法,其特征在于,所述步骤S4中,通过PTU工具对CPU进行加压。
5.一种基于PECI总线测试CPU温度的系统,其特征在于,包括:
测试环境检测模块,
检测待测服务器状态,如果操作系统IP和基板管理控制器IP均处于网络导通状态,则进行测试;否则退出测试;
ME正常状态下获取CPU温度值模块,
判断ME是否处于正常状态,如果ME处于正常状态则读取CPU的温度值,记为第一温度值;否则退出测试;
构造ME异常模块,
通过ME异常构造指令促使ME处于异常状态,ME进入异常状态后,基板管理控制器通过PECI总线通道读取CPU的温度值,记为第二温度值;
PECI总线通道检测模块,
对CPU进行加压处理,并通过PECI总线通道监控CPU温度值,如果CPU温度值比第二温度值高,则PECI总线通道导通;
ME恢复模块,
重启ME,在超出ME恢复时间后读取到CPU的温度值,则ME恢复成功。
6.根据权利要求5所述的一种基于PECI总线测试CPU温度的系统,其特征在于,所述ME正常状态下获取CPU温度值模块中,通过ME_FW_Status传感器状态判断ME是否处于正常状态。
7.根据权利要求5或6所述的一种基于PECI总线测试CPU温度的系统,其特征在于,所述ME正常状态下获取CPU温度值模块中,通过PCH_Temp传感器读取CPU的温度值。
8.根据权利要求7所述的一种基于PECI总线测试CPU温度的系统,其特征在于,所述PECI总线通道检测模块中,通过PTU工具对CPU进行加压。
9.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述权利要求1-4中任一权利要求所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010130567.6A CN111290920B (zh) | 2020-02-28 | 2020-02-28 | 基于peci总线测试cpu温度的系统、方法及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010130567.6A CN111290920B (zh) | 2020-02-28 | 2020-02-28 | 基于peci总线测试cpu温度的系统、方法及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111290920A true CN111290920A (zh) | 2020-06-16 |
CN111290920B CN111290920B (zh) | 2022-12-23 |
Family
ID=71030144
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010130567.6A Active CN111290920B (zh) | 2020-02-28 | 2020-02-28 | 基于peci总线测试cpu温度的系统、方法及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111290920B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145426A (zh) * | 2017-05-09 | 2017-09-08 | 郑州云海信息技术有限公司 | 一种bmc 测试me状态异常的方法 |
CN206684725U (zh) * | 2017-05-02 | 2017-11-28 | 郑州云海信息技术有限公司 | 一种基于bmc获取cpu温度的系统 |
CN108427617A (zh) * | 2018-02-28 | 2018-08-21 | 郑州云海信息技术有限公司 | Bmc获取cpu温度的方法、装置及设备 |
-
2020
- 2020-02-28 CN CN202010130567.6A patent/CN111290920B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN206684725U (zh) * | 2017-05-02 | 2017-11-28 | 郑州云海信息技术有限公司 | 一种基于bmc获取cpu温度的系统 |
CN107145426A (zh) * | 2017-05-09 | 2017-09-08 | 郑州云海信息技术有限公司 | 一种bmc 测试me状态异常的方法 |
CN108427617A (zh) * | 2018-02-28 | 2018-08-21 | 郑州云海信息技术有限公司 | Bmc获取cpu温度的方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111290920B (zh) | 2022-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106789306B (zh) | 通信设备软件故障检测收集恢复方法和系统 | |
WO2021244535A1 (zh) | 车辆软件故障检测方法、装置、设备及存储介质 | |
CN114978883B (zh) | 网络唤醒的管理方法、装置、电子设备及存储介质 | |
JPWO2012157471A1 (ja) | 複数の制御システムの異常を検知する異常検知システム | |
CN109725220B (zh) | 一种变压器油冷却回路的检测方法、系统及装置 | |
US20220342740A1 (en) | Method and Device for Detecting Memory Downgrade Error | |
CN114281173A (zh) | 一种服务器的可靠散热控制方法及装置 | |
CN107590017B (zh) | 一种电子设备的检测方法和装置 | |
JP2003122599A (ja) | 計算機システムおよび計算機システムにおけるプログラム実行監視方法 | |
CN107943654A (zh) | 一种快速判定服务器环境温度监控异常原因的方法 | |
CN113868058A (zh) | 一种外设组件高速互联设备故障检测方法、装置及服务器 | |
CN111290920B (zh) | 基于peci总线测试cpu温度的系统、方法及存储介质 | |
CN111124809B (zh) | 一种服务器传感器系统的测试方法及装置 | |
CN113010341A (zh) | 一种故障内存定位的方法和设备 | |
CN116501705A (zh) | 基于ras的内存信息收集解析方法、系统、设备及介质 | |
CN115292113B (zh) | 对服务器的内存进行故障检测方法、装置及电子设备 | |
CN115934446A (zh) | 一种自检方法、服务器、设备和存储介质 | |
CN110058979A (zh) | 一种温度读取失败故障的监控方法、bmc及存储介质 | |
CN108880916B (zh) | 一种基于iic总线的故障定位方法及系统 | |
CN113064776A (zh) | 一种bmc故障的诊断方法及装置 | |
CN111884830A (zh) | 一种基于bmc保留故障现场的方法及装置 | |
CN115695159B (zh) | 一种设备诊断方法、装置、设备和存储介质 | |
CN115150254B (zh) | 一种PCIe链路故障检测方法、检测装置、设备及介质 | |
CN117493127B (zh) | 一种应用程序检测方法、装置、设备及介质 | |
CN117439871B (zh) | 抄表故障定位方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |