CN110990216A - 一种cpu降频的控制系统和方法 - Google Patents

一种cpu降频的控制系统和方法 Download PDF

Info

Publication number
CN110990216A
CN110990216A CN201911088629.5A CN201911088629A CN110990216A CN 110990216 A CN110990216 A CN 110990216A CN 201911088629 A CN201911088629 A CN 201911088629A CN 110990216 A CN110990216 A CN 110990216A
Authority
CN
China
Prior art keywords
signal sending
sending module
cpu
psus
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201911088629.5A
Other languages
English (en)
Inventor
翟庆伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN201911088629.5A priority Critical patent/CN110990216A/zh
Publication of CN110990216A publication Critical patent/CN110990216A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/30Means for acting in the event of power-supply failure or interruption, e.g. power-supply fluctuations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Power Sources (AREA)

Abstract

本申请公开了一种CPU降频的控制系统,包括:N个电源单元PSU,用于实现CPU的冗余供电,N为不小于2的正整数;与N个PSU均连接的降频信号发送模块,用于在使能端有效时,在接收到任意一个PSU发送的故障信号之后,控制CPU降频;与降频信号发送模块连接的CPU;与降频信号发送模块连接的使能信号发送模块;与N个PSU以及使能信号发送模块均连接的控制模块,用于在检测到N个PSU均故障时,利用使能信号发送模块控制降频信号发送模块的使能端有效。应用本申请的方案,有利于保证服务器的整机性能,利于用户业务正常运行。本申请还公开了一种CPU降频的控制方法,具有相应效果。

Description

一种CPU降频的控制系统和方法
技术领域
本发明涉及计算机技术领域,特别是涉及一种CPU降频的控制系统和方法。
背景技术
在Purley服务器平台上,CPU降频是CPU临时降低工作频率,从而适应服务器主板硬件环境变化的一种现象。PSU(Power Supply Unit,电源单元)故障是引发CPU降频的一种常见原因。
具体的,只要有PSU故障,就会触发CPLD(Complex Programmable Logic Device,复杂可编程逻辑器件)的降频信号,进而引起CPU降频。但是,CPU降频之后,服务器的整机性能会大幅度地下降,用户业务可能会因此停滞。
综上所述,如何有效地对CPU降频进行控制,保障业务正常运行,是目前本领域技术人员急需解决的技术问题。
发明内容
本发明的目的是提供一种CPU降频的控制系统和方法,以有效地对CPU降频进行控制,保障业务的正常运行。
为解决上述技术问题,本发明提供如下技术方案:
一种CPU降频的控制系统,包括:
N个电源单元PSU,用于实现CPU的冗余供电,N为不小于2的正整数;
与N个所述PSU均连接的降频信号发送模块,用于在使能端有效时,在接收到任意一个所述PSU发送的故障信号之后,控制所述CPU降频;
与所述降频信号发送模块连接的所述CPU;
与所述降频信号发送模块连接的使能信号发送模块;
与N个所述PSU以及所述使能信号发送模块均连接的控制模块,用于在检测到N个所述PSU均故障时,利用所述使能信号发送模块控制所述降频信号发送模块的使能端有效。
优选的,所述控制模块包括:
与N个所述PSU均连接的BMC,用于获取N个所述PSU的故障数量;
与所述BMC以及所述使能信号发送模块均连接的BIOS,用于当所述故障数量等于N时,利用所述使能信号发送模块控制所述降频信号发送模块的使能端有效。
优选的,所述控制模块还用于:
当检测出至少一个所述PSU故障且故障数量小于N时,输出预警提示信息。
优选的,所述控制模块还用于:
当检测出N个所述PSU均故障时,输出报警提示信息。
优选的,所述控制模块还用于:
在检测到至少一个所述PSU故障时,进行事件记录。
一种CPU降频的控制方法,应用于如权利要求1所述的CPU降频的控制系统中,CPU降频的控制方法包括:
N个电源单元PSU实现CPU的冗余供电,N为不小于2的正整数;
控制模块在检测到N个所述PSU均故障时,利用使能信号发送模块控制降频信号发送模块的使能端有效;
所述降频信号发送模块在使能端有效时,在接收到任意一个所述PSU发送的故障信号之后,控制所述CPU降频。
优选的,所述控制模块在检测到N个所述PSU均故障时,利用使能信号发送模块控制降频信号发送模块的使能端有效,包括:
BMC获取N个所述PSU的故障数量;
当所述故障数量等于N时,BIOS利用所述使能信号发送模块控制所述降频信号发送模块的使能端有效。
优选的,还包括:
当所述控制模块检测出至少一个所述PSU故障且故障数量小于N时,输出预警提示信息。
优选的,还包括:
当所述控制模块检测出N个所述PSU均故障时,输出报警提示信息。
优选的,还包括:
所述控制模块在检测到至少一个所述PSU故障时,进行事件记录。
申请人考虑到,部分服务器会配置不止一个PSU,而只要至少有1个可用的PSU,就可以保证业务的正常运行,即控制CPU不降频,从而保证服务器的整机性能,有利于用户业务正常运行。因此,本申请的方案中,设置了控制模块与N个PSU以及使能信号发送模块均连接,控制模块只有在检测到N个PSU均故障时,由于此时没有一个PSU可用,才会利用使能信号发送模块控制降频信号发送模块的使能端有效。相应的,只要有一个可用的PSU,便不会控制降频信号发送模块的使能端有效,即只要有一个可用的PSU,便可以控制CPU不降频,从而保证服务器的整机性能,有利于用户业务正常运行。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明中一种CPU降频的控制系统的结构示意图;
图2为本发明中另一种CPU降频的控制系统的结构示意图;
图3为本发明中一种CPU降频的控制方法的实施流程图。
具体实施方式
本发明的核心是提供一种CPU降频的控制系统,有利于保证服务器的整机性能,利于用户业务正常运行。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
申请人考虑到,目前Purley平台中存在着大量的双路服务器,对于这些双路服务器,一般会配置2个PSU。而如果配置了两个PSU,只要至少有1个可用的PSU,就可以保证业务的正常运行,即控制CPU不降频,从而保证服务器的整机性能,有利于用户业务正常运行。
请参考图1,图1为本发明中一种CPU降频的控制系统的结构示意图,该CPU降频的控制系统可以包括:
N个电源单元PSU10,用于实现CPU30的冗余供电,N为不小于2的正整数。
与N个PSU10均连接的降频信号发送模块20,用于在使能端有效时,在接收到任意一个PSU10发送的故障信号之后,控制CPU30降频。
图1的实施方式中示出了2个PSU10,这也是实际应用中常用的方式,即N通常可以取值为2,当然,在其他具体场合中,可以设置有更多数量的PSU10,从而进一步地保障CPU30的供电安全,并不影响本发明的实施。
N个PSU10可以实现CPU30的冗余供电,例如通常由优先级最高的PSU10进行供电,该PSU10故障之后,可以将该PSU10的输出端关断,并控制优先级第二高的PSU10的供电回路导通从而为CPU30供电。当前,具体场合中的冗余策略可用根据实际需要进行设定和调整,并不影响本发明的实施。
降频信号发送模块20通常可以选取为CPLD,并且需要说明的是,在实际应用中,CPLD可以通过一个引脚同时与各个PSU10的输出端连接,也可以采用多个引脚分别与各个PSU10连接,均不影响本发明的实施。
任意一个PSU10故障时,该PSU10会输出故障信号,即输出Alert故障信号,如果降频信号发送模块20处于工作状态,即降频信号发送模块20的使能端有效的状态下,降频信号发送模块20便会控制CPU30降频。具体的,降频信号发送模块20可以发送Prochot降频信号,使得CPU30降频。
与降频信号发送模块20连接的CPU30。
与降频信号发送模块20连接的使能信号发送模块40;
与N个PSU10以及使能信号发送模块40均连接的控制模块50,用于在检测到N个PSU10均故障时,利用使能信号发送模块40控制降频信号发送模块20的使能端有效。
使能信号发送模块40通常可以选取为PCH(Platform Controller Hub,集成南桥)。本申请的方案中,通过控制模块50与N个PSU10连接,使得控制模块50可以对PSU10的故障数量进行检测。具体的,任意一个PSU10故障时,该PSU10可以将自身故障这一信息发送至控制模块50,进而控制模块50便可以进行PSU10的故障数量统计。
当控制模块50在检测到N个PSU10均故障时,说明需要控制CPU30降频,因此控制模块50会利用使能信号发送模块40控制降频信号发送模块20的使能端有效,具体的,控制模块50可以向使能信号发送模块40发送Alert使能控制指令,使能信号发送模块40接收该指令之后,便可以向降频信号发送模块20的使能端发送对应的电信号,例如高电平时降频信号发送模块20的使能端有效。当然,当检测出PSU10的故障数量小于N时,控制模块50便不会发送Alert使能控制指令,即此时降频信号发送模块20的使能端无效,降频信号发送模块20处于非工作状态,实现了本申请此时控制CPU30不降频的目的。
在本发明的一种具体实施方式中,参阅图2,控制模块50可以具体包括:
与N个PSU10均连接的BMC51,用于获取N个PSU10的故障数量;
与BMC51以及使能信号发送模块40均连接的BIOS52,用于当故障数量等于N时,利用使能信号发送模块40控制降频信号发送模块20的使能端有效。
考虑到本申请需要设置控制模块50来实现本申请的方案,如果额外配置硬件来实现本申请的控制模块50会增加成本,因此,该种实施方式中,通过原有的硬件结构实现本申请的控制模块50。具体的,BMC51可以获取N个PSU10的故障数量,将故障数量发送至BIOS52之后,如果故障数量等于N,说明N个PSU10全部故障,此时BIOS52才会利用使能信号发送模块40控制降频信号发送模块20的使能端有效,相应的,只要有一个PSU10可以正常运行,都不会利用使能信号发送模块40控制降频信号发送模块20的使能端有效。
由于基于BMC51和BIOS52实现了控制模块50,因此无需进行硬件上的修改,有利于为方案的实施节约成本。并且,BIOS52和BMC51可以带电升级,因此基于原有的BMC51和BIOS52,带电升级之后便可以执行本申请的控制模块50的功能,也就不会出现由于断电而中断用户业务的情况。
应用本发明实施例所提供的技术方案,申请人考虑到,部分服务器会配置不止一个PSU10,而只要至少有1个可用的PSU10,就可以保证业务的正常运行,即控制CPU30不降频,从而保证服务器的整机性能,有利于用户业务正常运行。因此,本申请的方案中,将控制模块50与N个PSU10以及使能信号发送模块40均连接,控制模块50只有在检测到N个PSU10均故障时,由于此时没有一个PSU10可用,才会利用使能信号发送模块40控制降频信号发送模块20的使能端有效。相应的,只要有一个可用的PSU10,便不会控制降频信号发送模块20的使能端有效,即只要有一个可用的PSU10,便可以控制CPU30不降频,从而保证服务器的整机性能,有利于用户业务正常运行。
在本发明的一种具体实施方式中,控制模块50还可以用于:
当检测出至少一个PSU10故障且故障数量小于N时,输出预警提示信息。
此时,由于检测出至少一个PSU10故障且故障数量小于N,说明至少一个PSU10可用,虽然发生了故障,但紧急程度不高,因此输出了预警提示信息,从而有利于工作人员获知当前的故障情况。
进一步地,控制模块50可用还可以用于:当检测出N个PSU10均故障时,输出报警提示信息。由于N个PSU10均故障,CPU30会降频,服务器的整机性能降低,用户业务可能停滞甚至瘫痪,因此输出重要性高的报警提示信息,使得工作人员及时的注意到该情况,立即进行故障处理。
在本发明的一种具体实施方式中,控制模块50还可以用于:在检测到至少一个PSU10故障时,进行事件记录,从而有利于协助后续的故障维护以及故障分析。
相应于上面的系统实施例,本发明实施例还提供了一种CPU降频的控制方法,可与上文相互对应参照。该CPU降频的控制方法可以应用于图1的CPU降频的控制系统中,
参见图3所示,该CPU降频的控制方法可以包括以下步骤:
步骤S301:N个电源单元PSU实现CPU的冗余供电,N为不小于2的正整数;
步骤S302:控制模块在检测到N个PSU均故障时,利用使能信号发送模块控制降频信号发送模块的使能端有效;
步骤S303:降频信号发送模块在使能端有效时,在接收到任意一个PSU发送的故障信号之后,控制CPU降频。
在本发明的一种具体实施方式中,步骤S302具体包括:
BMC获取N个PSU的故障数量;
当故障数量等于N时,BIOS利用使能信号发送模块控制降频信号发送模块的使能端有效。
在本发明的一种具体实施方式中,还可以包括:
当控制模块检测出至少一个PSU故障且故障数量小于N时,输出预警提示信息。
在本发明的一种具体实施方式中,还可以包括:
当控制模块检测出N个PSU均故障时,输出报警提示信息。
在本发明的一种具体实施方式中,还可以包括:
在控制模块检测到至少一个PSU故障时,进行事件记录。
在本发明的一种具体实施方式中,还可以包括:
控制模块在检测到至少一个所述PSU故障时,进行事件记录。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种CPU降频的控制系统,其特征在于,包括:
N个电源单元PSU,用于实现CPU的冗余供电,N为不小于2的正整数;
与N个所述PSU均连接的降频信号发送模块,用于在使能端有效时,在接收到任意一个所述PSU发送的故障信号之后,控制所述CPU降频;
与所述降频信号发送模块连接的所述CPU;
与所述降频信号发送模块连接的使能信号发送模块;
与N个所述PSU以及所述使能信号发送模块均连接的控制模块,用于在检测到N个所述PSU均故障时,利用所述使能信号发送模块控制所述降频信号发送模块的使能端有效。
2.根据权利要求1所述的CPU降频的控制系统,其特征在于,所述控制模块包括:
与N个所述PSU均连接的BMC,用于获取N个所述PSU的故障数量;
与所述BMC以及所述使能信号发送模块均连接的BIOS,用于当所述故障数量等于N时,利用所述使能信号发送模块控制所述降频信号发送模块的使能端有效。
3.根据权利要求1所述的CPU降频的控制系统,其特征在于,所述控制模块还用于:
当检测出至少一个所述PSU故障且故障数量小于N时,输出预警提示信息。
4.根据权利要求3任一项所述的CPU降频的控制系统,其特征在于,所述控制模块还用于:
当检测出N个所述PSU均故障时,输出报警提示信息。
5.根据权利要求1所述的CPU降频的控制系统,其特征在于,所述控制模块还用于:
在检测到至少一个所述PSU故障时,进行事件记录。
6.一种CPU降频的控制方法,其特征在于,应用于如权利要求1所述的CPU降频的控制系统中,CPU降频的控制方法包括:
N个电源单元PSU实现CPU的冗余供电,N为不小于2的正整数;
控制模块在检测到N个所述PSU均故障时,利用使能信号发送模块控制降频信号发送模块的使能端有效;
所述降频信号发送模块在使能端有效时,在接收到任意一个所述PSU发送的故障信号之后,控制所述CPU降频。
7.根据权利要求6所述的CPU降频的控制方法,其特征在于,所述控制模块在检测到N个所述PSU均故障时,利用使能信号发送模块控制降频信号发送模块的使能端有效,包括:
BMC获取N个所述PSU的故障数量;
当所述故障数量等于N时,BIOS利用所述使能信号发送模块控制所述降频信号发送模块的使能端有效。
8.根据权利要求6所述的CPU降频的控制方法,其特征在于,还包括:
当所述控制模块检测出至少一个所述PSU故障且故障数量小于N时,输出预警提示信息。
9.根据权利要求8所述的CPU降频的控制方法,其特征在于,还包括:
当所述控制模块检测出N个所述PSU均故障时,输出报警提示信息。
10.根据权利要求6所述的CPU降频的控制方法,其特征在于,还包括:
所述控制模块在检测到至少一个所述PSU故障时,进行事件记录。
CN201911088629.5A 2019-11-08 2019-11-08 一种cpu降频的控制系统和方法 Withdrawn CN110990216A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911088629.5A CN110990216A (zh) 2019-11-08 2019-11-08 一种cpu降频的控制系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911088629.5A CN110990216A (zh) 2019-11-08 2019-11-08 一种cpu降频的控制系统和方法

Publications (1)

Publication Number Publication Date
CN110990216A true CN110990216A (zh) 2020-04-10

Family

ID=70083639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911088629.5A Withdrawn CN110990216A (zh) 2019-11-08 2019-11-08 一种cpu降频的控制系统和方法

Country Status (1)

Country Link
CN (1) CN110990216A (zh)

Similar Documents

Publication Publication Date Title
CN110609760A (zh) 一种防止服务器误触发降频的系统
JP2011128795A (ja) 情報処理装置及び情報処理装置の障害復旧方法
US7436291B2 (en) Protection of devices in a redundant configuration
US20140298076A1 (en) Processing apparatus, recording medium storing processing program, and processing method
JP4655718B2 (ja) コンピュータシステム及びその制御方法
KR101023533B1 (ko) 고속철도 에이티시의 실시간 원격복구 시스템 및 그 제어방법
CN110990216A (zh) 一种cpu降频的控制系统和方法
CN100514911C (zh) 一种对分布式电信系统进行数据配置的方法
US20080310314A1 (en) Method for Detecting a Message Interface Fault in a Communication Device
KR101631631B1 (ko) 보호계전기의 고장진단 및 복구방법
CN113794595A (zh) 一种基于工业互联网的IoT设备高可用方法
CN112650168A (zh) 分布式控制系统及其动态调度资源的方法
CN112667428A (zh) Bmc故障处理电路、方法、装置、电子设备及存储介质
JP2000020336A (ja) 二重化通信システム
CN118245269B (zh) Pci设备的故障处理方法及装置、故障处理系统
JP3107104B2 (ja) 待機冗長方式
WO2012081838A1 (ko) 네트워크 장비의 감시와 회복 시스템 및 방법
JP2008059531A (ja) コンピュータシステムの障害通報方法
KR100547872B1 (ko) 이동통신시스템에서 하드웨어알람보드의 이상 발생시하드웨어 장애 발생 유무를 감지하는 장치 및 방법
CN113360325A (zh) 一种故障处理方法、装置及其系统
JP2706027B2 (ja) プログラマブルコントローラ
JPH1049450A (ja) 遠隔監視システムの異常時の復旧方式
JP3474294B2 (ja) 通信システム
CN118625945A (zh) 一种分布式触控屏冗余控制架构及方法
KR20240039379A (ko) 보호계전기 감시 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200410

WW01 Invention patent application withdrawn after publication