CN111026611A - 一种服务器散热控制方法及系统 - Google Patents

一种服务器散热控制方法及系统 Download PDF

Info

Publication number
CN111026611A
CN111026611A CN201911258278.8A CN201911258278A CN111026611A CN 111026611 A CN111026611 A CN 111026611A CN 201911258278 A CN201911258278 A CN 201911258278A CN 111026611 A CN111026611 A CN 111026611A
Authority
CN
China
Prior art keywords
operating system
temperature
cpu
heat dissipation
bmc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201911258278.8A
Other languages
English (en)
Inventor
吴常顺
刘海安
杜庆雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN201911258278.8A priority Critical patent/CN111026611A/zh
Publication of CN111026611A publication Critical patent/CN111026611A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Cooling Or The Like Of Electrical Apparatus (AREA)

Abstract

本发明实施例公开了一种服务器散热控制方法及系统,包括在CPU散热器的下风口放置温度传感器;BMC获取操作系统的当前状态,并根据操作系统的当前状态选择CPU温度信号的来源;将选择的温度信号发送给散热模块,执行散热策略。本发明通过在CPU散热器的下风口设置温度传感器来采集CPU的温度,在操作系统故障或未启动时,依然能够获得CPU的温度,使CPU温度能够参与服务器散热的调控,确保在服务器整个运行过程中都能获取到CPU温度,保证了整机系统具备良好的散热,进而保证系统的可靠运行。

Description

一种服务器散热控制方法及系统
技术领域
本发明涉及服务器散热技术领域,具体地说是一种服务器散热控制方法及系统。
背景技术
随着信息安全问题日益凸显,自主可控的国产计算机系统愈加受到政府和企业的重视,包括CPU、内存、硬盘及操作系统等在内的关键部件的国产化替代逐渐成为一种趋势。
FT2000+CPU是飞腾公司推出的一款基于ARM架构的64核心通用处理器,FT2000+在单核计算能力、单芯片并行性能、访存带宽等指标处于国际领先水平,但相比国际顶级CPU厂商,用户接口丰富性还有待进一步提高。FT2000+不提供相应的IO接口获取其结温,只能通过操作系统间接获取。即获取CPU的结温必须依赖操作系统。CPU温度是参与系统散热策略极其重要的组成部分,进而操作系统自身的健壮性及启动时间均会对系统散热策略产生影响。
然而服务器在运行过程中,难以避免出现操作系统故障的情况,此时由于获取不到CPU的温度,势必会造成服务器散热不佳,影响服务器的可靠运行。若长时间得不到有效散热,还可能造成更严重的损失。
发明内容
本发明实施例中提供了一种服务器散热控制方法及系统,以解决现有技术中操作系统故障时,获取不到CPU温度影响服务器散热的问题。
为了解决上述技术问题,本发明实施例公开了如下技术方案:
本发明第一方面提供了一种服务器散热控制方法,所述方法包括以下步骤:
获取CPU散热器处的温度;
BMC获取操作系统的当前状态,并根据操作系统的当前状态选择CPU温度信号的来源,所述温度信号的来源包括所述CPU散热器处温度和操作系统获取的CPU结温;
将所述选择的温度信号发送给散热模块,执行散热策略。
进一步地,通过在CPU散热器处安装温度传感器获取CPU散热器的温度。
进一步地,所述BMC获取操作系统的当前状态,并根据操作系统的当前状态选择CPU温度信号的来源的具体过程为:
在服务器启动过程中,操作系统未启动时,选通温度传感器采集的温度值;
操作系统启动完成后,BMC获取到操作系统启动完成的状态信号时,选通操作系统获取的CPU结温;
在操作系统故障时,BMC获取到操作系统的异常中断信号时,选通温度传感器采集的温度值。
进一步地,BMC在获取到操作系统的异常中断信号后,驱动告警模块,进行操作系统异常报警。
进一步地,所述异常中断信号由CPU发出,CPU监测操作系统的状态,并在监测到异常后发送中断信号给BMC。
本发明第二方面提供了一种服务器散热控制系统,所述系统包括:
第一温度采集模块,包括温度传感器,用于采集CPU的温度;
第二温度采集模块,基于操作系统,用于获取CPU的结温;
BMC,根据操作系统的状态,选择第一温度采集模块或第二温度采集模块的CPU温度值,发送给散热模块;
散热模块,根据BMC发送的温度,执行对应的散热策略。
进一步地,所述操作系统的状态包括未启动状态、正常运行状态和运行异常状态。
进一步地,所述系统还包括告警模块,所述告警模块在操作系统处于运行异常状态时,发出操作系统异常告警信号。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
通过在CPU散热器的下风口设置温度传感器来采集CPU的温度,在操作系统故障或未启动时,依然能够获得CPU的温度,使CPU温度能够参与服务器散热的调控,确保在服务器整个运行过程中都能获取到CPU温度,保证了整机系统具备良好的散热,进而保证系统的可靠运行。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明所述方法的流程示意图;
图2是本发明所述方法实施例的流程示意图;
图3是本发明所述系统的结构示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
如图1所示,本发明基于飞腾FT2000+服务器的散热控制方法包括以下步骤:
S1,在CPU散热器的下风口放置温度传感器;
S2,BMC获取操作系统的当前状态,并根据操作系统的当前状态选通CPU温度信号的来源;
S3,将所述选通的温度信号发送给散热模块,执行散热策略。
步骤S1中的温度传感器实时获取CPU的温度值并通过I2C发送给BMC。
步骤S2中,CPU温度信号的来源包括温度传感器采集的CPU温度和操作系统获取的CPU结温。
BMC获取CPU的当前状态,并根据操作系统的当前状态选通CPU温度信号的来源的具体过程为:
在服务器启动过程中,操作系统未启动时,则选通温度传感器采集的温度值;
操作系统启动完成后,BMC获取到操作系统启动完成的状态信号,选通操作系统获取的CPU结温;
在操作系统故障时,BMC获取到操作系统的异常中断信号,则选通温度传感器采集的温度值。
BMC在获取到操作系统的异常中断信号后,驱动告警模块,进行操作系统异常报警。
异常中断信号由CPU发出,CPU监测操作系统的状态,并在监测到异常后发送中断信号给BMC。
如图2所示,上述方法的一个具体适用场景:
操作系统最晚完成启动,因此在服务器开机过程中,BMC不能从操作系统获取到CPU的温度。服务器开机后,待BMC启动完成,BMC采集温度传感器的值,并根据此值驱动散热模块执行对应的散热策略。
持续监测操作系统的状态,判断操作系统是否完成启动,在操作系统启动后会采集CPU的结温,通过I2C接口传送给BMC,BMC获取操作系统发送的CPU结温,并根据此值驱动散热模块执行对应的散热策略。
CPU持续监测操作系统的状态,并在操作系统出现异常时,向BMC发送中断信号,BMC获取到此中断信号后,采集温度传感器的值,并根据温度传感器的值驱动散热模块执行对应的散热策略。
在监测到操作系统异常后,通常会重启系统并向操作人员发送告警提示。
如图3所示,本发明服务器散热控制系统包括第一温度采集模块、第二温度采集模块、BMC3、散热模块4、告警模块5和CPU2。
第一温度采集模块包括温度传感器1,安装在CPU散热器的下风口,用于采集CPU2的温度;第二温度采集模块基于操作系统,用于获取CPU2的结温;BMC3根据操作系统的状态,选通第一温度采集模块和第二温度采集模块的CPU2温度值;散热模块4根据BMC发送的温度,执行对应的散热策略;告警模块5在操作系统处于运行异常状态时,发出操作系统异常告警信号。
上述操作系统的状态包括未启动状态、正常运行状态和运行异常状态。BMC在操作系统状态为未启动状态和运行异常状态时,选取温度传感器的温度值进行散热控制,在操作系统与正常运行状态时,选取操作系统获取CPU结温进行散热控制。即无论操作系统处于何种状态,只要服务器运行,均能保证系统进行良好的散热。
以上所述只是本发明的优选实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也被视为本发明的保护范围。

Claims (8)

1.一种服务器散热控制方法,其特征是,所述方法包括以下步骤:
获取CPU散热器处的温度;
BMC获取操作系统的当前状态,并根据操作系统的当前状态选择CPU温度信号的来源,所述温度信号的来源包括所述CPU散热器处温度和操作系统获取的CPU结温;
将所述选择的温度信号发送给散热模块,执行散热策略。
2.根据权利要求1所述的服务器散热控制方法,其特征是,通过在CPU散热器处安装温度传感器获取CPU散热器的温度。
3.根据权利要求1所述的服务器散热控制方法,其特征是,所述BMC获取操作系统的当前状态,并根据操作系统的当前状态选择CPU温度信号的来源的具体过程为:
在服务器启动过程中,操作系统未启动时,选通温度传感器采集的温度值;
操作系统启动完成后,BMC获取到操作系统启动完成的状态信号时,选通操作系统获取的CPU结温;
在操作系统故障时,BMC获取到操作系统的异常中断信号时,选通温度传感器采集的温度值。
4.根据权利要求3所述的服务器散热控制方法,其特征是,BMC在获取到操作系统的异常中断信号后,驱动告警模块,进行操作系统异常报警。
5.根据权利要求3所述的服务器散热控制方法,其特征是,所述异常中断信号由CPU发出,CPU监测操作系统的状态,并在监测到异常后发送中断信号给BMC。
6.一种服务器散热控制系统,其特征是,所述系统包括:
第一温度采集模块,包括温度传感器,用于采集CPU的温度;
第二温度采集模块,基于操作系统,用于获取CPU的结温;
BMC,根据操作系统的状态,选择第一温度采集模块或第二温度采集模块的CPU温度值,发送给散热模块;
散热模块,根据BMC发送的温度,执行对应的散热策略。
7.根据权利要求6所述的服务器散热控制系统,其特征是,所述操作系统的状态包括未启动状态、正常运行状态和运行异常状态。
8.根据权利要求6所述的服务器散热控制系统,其特征是,所述系统还包括告警模块,所述告警模块在操作系统处于运行异常状态时,发出操作系统异常告警信号。
CN201911258278.8A 2019-12-10 2019-12-10 一种服务器散热控制方法及系统 Withdrawn CN111026611A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911258278.8A CN111026611A (zh) 2019-12-10 2019-12-10 一种服务器散热控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911258278.8A CN111026611A (zh) 2019-12-10 2019-12-10 一种服务器散热控制方法及系统

Publications (1)

Publication Number Publication Date
CN111026611A true CN111026611A (zh) 2020-04-17

Family

ID=70205229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911258278.8A Withdrawn CN111026611A (zh) 2019-12-10 2019-12-10 一种服务器散热控制方法及系统

Country Status (1)

Country Link
CN (1) CN111026611A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113391687A (zh) * 2021-07-13 2021-09-14 深圳市智微智能科技股份有限公司 一种服务器硬盘水冷装置及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899109A (zh) * 2015-05-06 2015-09-09 深圳市国鑫恒宇科技有限公司 一种操作系统下获取cpu温度的方法
CN106598814A (zh) * 2016-12-26 2017-04-26 郑州云海信息技术有限公司 一种实现服务器系统过热保护的设计方法
CN110362176A (zh) * 2019-06-29 2019-10-22 苏州浪潮智能科技有限公司 一种服务器bmc失效时散热控制系统及方法
CN110487430A (zh) * 2019-08-06 2019-11-22 贵州电网有限责任公司 一种服务器测温装置及cpu测温方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899109A (zh) * 2015-05-06 2015-09-09 深圳市国鑫恒宇科技有限公司 一种操作系统下获取cpu温度的方法
CN106598814A (zh) * 2016-12-26 2017-04-26 郑州云海信息技术有限公司 一种实现服务器系统过热保护的设计方法
CN110362176A (zh) * 2019-06-29 2019-10-22 苏州浪潮智能科技有限公司 一种服务器bmc失效时散热控制系统及方法
CN110487430A (zh) * 2019-08-06 2019-11-22 贵州电网有限责任公司 一种服务器测温装置及cpu测温方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113391687A (zh) * 2021-07-13 2021-09-14 深圳市智微智能科技股份有限公司 一种服务器硬盘水冷装置及方法

Similar Documents

Publication Publication Date Title
US11163623B2 (en) Serializing machine check exceptions for predictive failure analysis
US9954727B2 (en) Automatic debug information collection
CN114328102B (zh) 设备状态监控方法、装置、设备及计算机可读存储介质
US9553776B2 (en) System and method for accessing operating system and hypervisors via a service processor of a server
CN109086155A (zh) 服务器故障定位方法、装置、设备及计算机可读存储介质
JP2017224272A (ja) ハードウェア障害回復システム
EP3591485B1 (en) Method and device for monitoring for equipment failure
US20120136970A1 (en) Computer system and method for managing computer device
US20180359184A1 (en) Out-of-band telemetry data collection
US11853150B2 (en) Method and device for detecting memory downgrade error
CN104899109A (zh) 一种操作系统下获取cpu温度的方法
CN109240851A (zh) 一种自主式实现批量bmc自恢复的方法及系统
CN112882901B (zh) 一种分布式处理系统健康状态智能监控器
CN116126772A (zh) 一种应用于arm服务器的uart串口管理系统及方法
CN102957563B (zh) Linux集群故障自动恢复方法和Linux集群故障自动恢复系统
CN103178977A (zh) 计算机系统及计算机系统的开机管理方法
CN116010156A (zh) 异常处理系统
CN111026611A (zh) 一种服务器散热控制方法及系统
CN107943654A (zh) 一种快速判定服务器环境温度监控异常原因的方法
Lu et al. Iaso: an autonomous fault-tolerant management system for supercomputers
CN107179911A (zh) 一种重启管理引擎的方法和设备
JP3838992B2 (ja) 障害検出方法及び情報処理システム
TW201324115A (zh) 電腦系統及電腦系統的開機管理方法
CN113064776A (zh) 一种bmc故障的诊断方法及装置
CN111124799A (zh) 一种pcie加速卡超功耗保护装置及保护方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20200417