CN114528234A - 用于多路服务器系统的带外管理方法及装置 - Google Patents

用于多路服务器系统的带外管理方法及装置 Download PDF

Info

Publication number
CN114528234A
CN114528234A CN202210028670.9A CN202210028670A CN114528234A CN 114528234 A CN114528234 A CN 114528234A CN 202210028670 A CN202210028670 A CN 202210028670A CN 114528234 A CN114528234 A CN 114528234A
Authority
CN
China
Prior art keywords
cpu
information
channel
band
access device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210028670.9A
Other languages
English (en)
Other versions
CN114528234B (zh
Inventor
杨有桂
陈才
刘付东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Phytium Technology Co Ltd
Original Assignee
Phytium Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Phytium Technology Co Ltd filed Critical Phytium Technology Co Ltd
Priority to CN202210028670.9A priority Critical patent/CN114528234B/zh
Publication of CN114528234A publication Critical patent/CN114528234A/zh
Application granted granted Critical
Publication of CN114528234B publication Critical patent/CN114528234B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/14Handling requests for interconnection or transfer
    • G06F13/20Handling requests for interconnection or transfer for access to input/output bus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2213/00Indexing scheme relating to interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F2213/0016Inter-integrated circuit (I2C)

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开一种用于多路服务器系统的带外管理方法及装置,该方法中多路服务器系统中各CPU通过LPC总线与带外访问器件连接,带外访问器件与各CPU还通过IC总线连接,带外管理方法通过将LPC总线、IC总线共同作为带外管理通道,其中带外访问器件通过IC总线通道访问不同CPU的RAS信息,IC总线通道被配置为带外访问器件对CPU的带外访问通道;各CPU通过LPC总线通道将主动上报的RAS信息传递给带外访问器件,LPC总线通道被配置为CPU主动上报信息通道。本发明能够实现带外管理的高效双向访问,具有实现方法简单、执行效率高、对软件依赖程度低且扩展性能好等优点。

Description

用于多路服务器系统的带外管理方法及装置
技术领域
本发明涉及多路服务器系统技术领域,尤其涉及一种用于多路服务器系统的带外管理方法及装置。
背景技术
带外管理是服务器的一个重要功能,该功能主要是服务器管理单元(BMC)通过物理通道与CPU系统进行信息交互。现有技术中服务器系统通常是采用LPC(Low Pin Count,低速通讯接口)进行带外管理,即通过LPC传输通道作为带外输出通道,当需要获取芯片内部RAS(Reliability Availability Serviceability,可靠性、可用性、可服务性)信息时,BMC直接通过LPC传输通道获取RAS相关信息。如图1所示,在服务器系统中,CPU与BMC之间通过LPC传输通道传输数据,由CPU作为LPC的master,BMC作为slave,当CPU发现故障后,主动通知BMC。
但是上述带外管理方式仅适用于单路系统,在多路服务器上使用时会存在较大的限制,如主要会存在以下缺陷:
1、由于BMC的LPC同一时间内只能与一个CPU的LPC通道进行通讯,而多路服务器存在多个CPU,因而上述带外管理方式并不适用于多路服务器中,在多路服务器上也难以实现扩展。
2、由于LPC上需要承载软件协议(IPMI协议),因而上述带外管理方式中BMC与CPU之间的交互需要依赖于软件,即CPU与BMC中需要依赖于复杂的软件配合实现,致使对软件的依赖程度高。
3、由于上述带外管理方式中LPC是采用主从式,仅能够实现单向的数据交互,且BMC作为slave端,只能被动接受CPU的故障信息,而无法主动获取CPU的信息,数据交互效率并不高。
因此亟需提供一种能够适用于多路服务器系统的带外管理方式,以使得提高带外访问的效率,同时还能够减少对软件依赖程度,提高在系统中的扩展性能。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种实现方法简单、执行效率高、对软件依赖程度低且扩展性能好的用于多路服务器系统的带外管理方法及装置,能够实现带外管理的高效双向访问。
为解决上述技术问题,本发明提出的技术方案为:
一种用于多路服务器系统的带外管理方法,包括:
带外访问器件通过IC总线通道访问不同CPU的RAS信息,所述IC总线通道被配置为所述带外访问器件对CPU的带外访问通道;
各CPU主动上报的RAS信息通过LPC总线通道传递给带外访问器件,所述LPC总线通道被配置为CPU主动上报信息通道。
进一步的,所述带外访问器件通过IC总线通道访问不同CPU的RAS信息时,由CPU作为slave设备,所述带外访问器件作为master设备。
进一步的,所述带外访问器件通过IC总线通道访问不同CPU的RAS信息时,不同CPU定义有不同的IC地址以进行区分。
进一步的,所述带外访问器件通过IC总线通道采用轮询方式访问不同CPU的RAS信息。
进一步的,所述带外访问器件通过IC总线通道访问不同CPU的RAS信息后还包括:由所述带外访问器件收集不同CPU的RAS信息,并对收集到的信息进行分析处理,根据处理结果通知CPU进行对应的处理。
进一步的,所述根据处理结果通知CPU进行相应的处理包括:若所述处理结果存在错误信息则向CPU发送告警信息,以通知CPU进行故障处理。
进一步的,所述各CPU通过LPC总线通道将主动上报的RAS信息传递给带外访问器件时,由指定的CPU作为master端,所述带外访问器件作为slave端。
进一步的,所述各CPU通过LPC总线通道将主动上报的RAS信息传递给带外访问器件后还包括:由所述带外访问器件接收各CPU上报的信息进行分析处理,并将处理结果反馈给对应的CPU。
进一步的,各CPU主动上报的RAS信息通过LPC总线通道传递给所述带外访问器件包括:将指定类型的RAS信息通过CPU之间的互联通道汇集到目标CPU上,由所述目标CPU将汇集的RAS信息统一通过所述LPC总线通道传递到外部其他器件,或者各个CPU分别将各自的RAS信息通过所述LPC总线通道传递到外部其他器件。
一种用于多路服务器系统的带外管理装置,包括用于进行带外访问控制管理的带外访问器件,所述带外访问器件与各CPU之间均分别通过IC总线、LPC总线通信连接,以通过IC总线通道、LPC总线通道进行数据交互,其中所述IC总线通道被配置为所述带外访问器件对CPU的带外访问通道,所述带外访问器件通过所述IC总线通道访问不同CPU的RAS信息,所述LPC总线通道被配置为CPU主动上报信息通道,各CPU通过所述LPC总线通道将主动上报的RAS信息传递给所述带外访问器件。
进一步的,所述带外访问器件包括依次连接的信息收集模块、信息分析处理模块以及用于将信息发送模块,所述信息收集模块用于收集RAS信息,发送给所述信息分析处理模块,所述信息分析处理模块对接收到的RAS信息进行分析处理,得到的处理结果由所述信息发送模块进行发送。
进一步的,当通过所述IC总线通道进行数据交互时,所述信息收集模块用于采用轮询方式读取各CPU的RAS信息。
进一步的,当通过所述LPC总线通道进行数据交互时,所述信息收集模块用于接收各CPU主动上报的RAS信息。
进一步的,当通过所述IC总线通道进行数据交互时,若所述处理结果存在错误信息,所述信息发送模块用于向CPU发送告警信息,以通知CPU进行故障处理。
进一步的,当通过所述LPC总线通道进行数据交互时,所述信息发送模块用于将所述信息分析处理模块输出的处理结果反馈给对应的CPU。
进一步的,各CPU分别与LPC总线通道连接,以传递各CPU的RAS信息,或者在指定CPU上设置汇集传递模块,用于将指定类型的RAS信息通过CPU之间的互联通道汇集到指定CPU上,并将汇集的RAS信息通过LPC总线通道进行传递。
进一步的,所述带外访问器件为BMC、EC、MCU中任意一种。
与现有技术相比,本发明的优点在于:
1、本发明通过将IC总线通道用于外部设备对CPU的带外访问通道,LPC总线通道作为CPU主动上报信息的通道,结合I2C总线通道、LPC总线通道两者形成双向的带外访问通道,在I2C总线上,带外访问器件通过I2C总线通道访问不同CPU的RAS信息,在LPC总线上各CPU通过LPC总线通道将主动上报的RAS信息传递给带外访问器件,实现带外访问器件与CPU之间的双向访问,可以高效实现带外管理双向访问,有效提高多路服务器系统中的带外访问效率。
2、本发明基于IC与IPC的带外管理双向访问通道,通过I2C总线通道提供了外部设备对CPU的带外访问通道,可以降低对软件的依赖程度,使得当CPU异常时仍然能够正常的获取RAS相关信息,以及在CPU初始化阶段也可以实现对RAS信息的访问。
3、本发明基于IC与IPC的带外管理双向访问通道,带外访问器件可以通过I2C总线通道同时访问多个CPU系统,能够提高在多路服务器中的扩展性能。
附图说明
图1是传统基于LPC传输通道的带外管理方法的原理示意图。
图2是本发明实施例1用于多路服务器系统的带外管理方法的实现流程示意图。
图3是本发明实施例1中LPC与I2C双向带外访问通道的配置原理示意图。
图4是本发明实施例1中BMC与CPU之间实现双向带外访问的原理示意图。
图5是本发明实施例2用于多路服务器系统的带外管理装置的结构示意图。
具体实施方式
以下结合说明书附图和具体优选的实施例对本发明作进一步描述,但并不因此而限制本发明的保护范围。
若基于LPC通道进行带外访问,则LPC通道同一时间内只能与一个CPU的LPC通道进行通讯,且LPC上需要承载软件协议(IPMI协议),因而带外管理方式中BMC与CPU之间的交互需要依赖于软件,在CPU无软件运行状态时无法访问CPU相关的RAS信息,而IC总线通道可以同时实现与多个CPU交互,且交互不需要依赖于CPU的软件处理,可以降低对软件的依赖程度;同时考虑到LPC通道是采用主从式,仅能够实现单向的数据交互,BMC作为slave端,只能被动接受CPU的故障信息,而无法主动获取CPU的信息,若通过LPC总线通道将各CPU主动上报的RAS信息传递给BMC,则可以同时实现CPU信息的主动上报。
本发明考虑上述问题,通过将I2C总线作为对CPU的带外访问通道,同时结合将LPC总线通道作为CPU主动上报信息通道,带外访问器件通过I2C总线通道访问不同CPU的RAS信息,各CPU的RAS信息通过LPC总线通道将主动上报传递给BMC,使得可以形成带外管理双向访问,不仅可以有效提高多路服务器系统中的带外访问效率,同时还可以使得对CPU信息的访问不需要依赖于CPU的软件处理,降低对软件的依赖程度,当CPU异常时仍然能够正常的获取RAS相关信息,以及在CPU初始化阶段也可以实现对RAS信息的访问。
实施例1:
如图2所示,本实施例用于多路服务器系统的带外管理方法的步骤包括:
S01.将I2C(Inter-Integrated Circuit,IIC)总线通道被配置为带外访问器件对CPU的带外访问通道,外部设备可以通过带外访问器件经带外访问通道访问CPU,将LPC总线通道被配置为CPU主动上报信息通道;
S02.在I2C总线上,BMC通过I2C总线通道访问不同CPU的RAS信息;在LPC总线上,各CPU通过LPC总线通道将主动上报的RAS信息传递给BMC。
本实施例通过利用LPC、I2C作为物理通道:将I2C总线通道用于外部设备对CPU的带外访问通道,LPC总线通道作为CPU主动上报信息的通道,结合I2C、LPC总线通道两者形成双向的带外访问通道,可以高效实现带外管理双向访问,有效提高多路服务器系统中的带外访问效率,同时,由于I2C访问通道不需要依赖于CPU的软件处理,即在CPU无软件运行状态,也能正常访问CPU相关的RAS信息,因而通过I2C总线通道可以降低对软件的依赖程度,使得当CPU异常时仍然能够正常的获取RAS相关信息,以及在CPU初始化阶段也可以实现对RAS信息的访问。
本实施例中CPU的RAS信息包括CPU作为I2C设备的设备地址空间,该地址空间上存放各个CPU的RAS信息,因而BMC可以选择不同的时期进行RAS信息的读取,然后再对获取的RAS信息进行处理。上述CPU的RAS信息可以是能够体现CPU的可靠性、可用性、可服务性的各类硬件或软件信息,信息类型具体可以根据实际需求确定。
本实施例中,I2C总线上,BMC通过I2C总线通道访问不同CPU的RAS信息时,由CPU作为slave设备,BMC作为master设备。传统LPC作为传输通道的带外管理方案中,CPU是作为master设备、BMC作为slave设备,因而BMC只能够被动的接收CPU的故障信息而无法主动获取CPU的信息。本实施例通过I2C总线通道作为外部设备对CPU的带外访问通道,即由I2C总线通道提供了BMC访问CPU的通道,同时由CPU作为slave设备,BMC作为master设备,使得BMC可以主动获取到CPU的信息,而不必被动等待CPU上报信息。
本实施例中,BMC通过I2C总线通道访问不同CPU的RAS信息时,不同CPU定义有不同的I2C地址以进行区分,使得BMC能够通过I2C通道访问到不同CPU的RAS信息。CPU的I2C地址定义方式可以采用按CPU编号顺序编码的方式,也可以采用按照其他预设编码规则的方式为各CPU定义I2C地址,编码时使得每个CPU的I2C地址唯一,从而不同CPU可以依据各自的I2C地址进行区分,BMC通过各CPU的I2C地址即可唯一确定出各CPU。相比于传统基于LPC传输通道的带外管理方法中BMC同一时刻只能与一个CPU进行通讯,本实施例通过使用I2C总线通道作为BMC访问CPU的通道,BMC可以同时访问多个CPU,且基于不同的I2C地址,BMC在访问过程中不会存在访问冲突。
本实施例中BMC通过I2C总线通道具体采用轮询方式访问不同CPU的RAS信息,轮询方式即为由BMC按顺序定时发出访问请求,依序访问每一个CPU,访问完一个CPU后再访问下一个CPU,不断重复执行,以依序获取各CPU的RAS信息。通过采用轮询方式,BMC可以借助于I2C总线通道主动的获取各CPU的RAS信息,确保充分的获取到所有所需的CPU的RAS信息。
在具体应用实施例中,BMC采用轮询方式时,可以配置为对所有CPU进行轮询,以轮询获取所有CPU的RAS信息,也可以配置为仅对部分CPU进行轮询,如由于不同CPU所承载的功能是不同的,则在不同的应用场景中,所需要关注的CPU可能是不同的,BMC轮询时可以仅配置为对需要关注的那部分CPU,以使得仅获取需要关注那部分CPU的RAS信息,以减少轮询执行的功耗。上述轮询方式的配置具体可以根据实际需求配置。
本实施例中,BMC通过I2C总线通道访问不同CPU的RAS信息后还包括:由BMC收集不同CPU的RAS信息,并对收集到的信息进行分析处理,根据处理结果通知CPU进行对应的处理。在BMC端,通过I2C总线通道访问到不同CPU的RAS信息后,BMC会将不同CPU的RAS信息进行收集并进行分析处理,由处理结果确定通知CPU的信息,如BMC进行分析处理时,具体分析CPU是否存在错误或故障信息、是否需要CPU的软件处理等,若处理结果存在错误或故障信息则向CPU发送告警信息,以通知CPU进行故障处理,从而使得BMC可以主动上报故障信息给CPU;如果处理结果需要CPU的软件处理,可以通过写入特定寄存器,由CPU的软件侦测寄存器的变化,做出对应的处理。BMC中上述信息收集功能、分析处理功能具体可以通过在BMC内部嵌入能够实现信息收集、信息分析处理功能的软件模块实现,其中分析处理功能除上述分析是否存在故障或者是否需要CPU的软件处理以外,还可以根据实际需求增加其他所需功能。
上述BMC根据处理结果通知CPU时,具体可以预先为不同处理结果类型(如上述的故障信息类或者需要CPU软件处理类)设定对应的通知信息,当BMC得到实时处理结果后,判断处理结果类型,根据处理结果类型调用相应的通知信息发送给对应CPU,以实现BMC与CPU之间的快速反馈。可以理解的是,处理结果通知CPU的方式当然也可以根据实际需求采用其他的通知方式。
由I2C总线通道提供了BMC访问CPU的通道,使得CPU可以被动将RAS相关的信息传递到BMC,但是通过CPU的RAS信息有一定的局限性,如系统发送的软件错误以及外设的错误信息通过CPU的RAS寄存器地址反馈会存在困难,对于该部分信息,本实施例同时设置了LPC总线通道,由LPC总线通道作为CPU上报信息的通道,则使得CPU可以主动将对应的RAS信息传递到BMC。本实施例在LPC总线上,由CPU0作为master端,BMC作为slave端,通过CPU0可以将RAS信息主动通知到BMC。上述LPC总线上可以运行不同的软件协议。上述作为master端的CPU当然也可以根据实际需求(如重要程度等)配置为其他的CPU。
如图3所示,由CPU0作为LPC通道的master端0,BMC作为slave端,CPU0通过LPC总线通道将RAS信息主动通知到BMC,BMC作为I2C总线通道的master端,CPU作为slave端,BMC通过轮询各CPU的RAS信息以进行分析处理。
本实施例中,各CPU主动上报的RAS信息通过LPC总线通道传递给BMC后还包括:由带外访问器件接收各CPU上报的信息进行分析处理,并将处理结果反馈给对应的CPU。BMC通过LPC总线通道接收来自各CPU主动上报的信息,主动上报的RAS信息可以为各类需要重点关注或及时处理的错误信息,如上述系统发送的软件错误以及外设的错误信息,也可以为需要重点关注或及时处理的其他类型信息。
本实施例中,各CPU主动上报的RAS信息通过LPC总线通道传递给带外访问器件包括:将指定类型的RAS信息通过CPU之间的互联通道汇集到目标CPU上,由目标CPU将汇集的RAS信息统一通过LPC总线通道传递到外部其他器件。具体除上述需要主动上报给BMC的信息外,其它CPU的RAS信息可以通过互联通道汇聚到一个指定的CPU(本实施例具体为CPU0)上,由该CPU统一通过LPC通道传递到外部其它器件。上述通过将各CPU的RAS信息汇集到一个CPU上然后统一传输给外部其他器件,基于该汇集传输方式,外部其他器件仅需与一个CPU交互即可获取所有CPU的RAS信息。可以理解的是,除上述汇集传输方式以外,各个CPU也可以采用独立分散传递方式:分别将各自的RAS信息通过LPC总线通道传递到外部其他器件,即各个CPU独立的将RAS信息进行传递,外部其他器件分别与各CPU进行数据交互。各CPU的RAS信息的具体传递方式可以依据实际需求选取,除上述汇集传输、独立分散传输以外,当然还可以采用其他的传输方式。
如图4所示,本实施例采用上述方法实现带外信息传递时,BMC通过I2C总线通道的轮询方式访问不同的CPU的RAS信息,然后将收集的信息进行分析以及处理,对于错误信息采取策略性的告警,如果需要CPU的软件处理,则通过写入特定寄存器,由CPU的软件侦测寄存器的变化做出对应的处理;对于系统发送的软件错误以及外设的错误信息等信息,由于通过CPU的RAS寄存器地址反馈存在困难,对于该部分信息,CPU通过LPC通道将上报的RSA信息传递到BMC,BMC收到信息后进行分析、处理后,将处理结果通过LPC通道反馈给对应的CPU。
本实施例带外访问器件具体是采用BMC,当然也可以采用如EC(电子元件)、MCU(微处理器)等器件实现。
本实施例IC总线采用I2C总线,当然也可以根据实际需求采用其他如I3C(Improved Inter Integrated Circuit)等的IC总线实现。
实施例2:
如图5所示,本实施例用于多路服务器系统的带外管理装置包括用于进行带外访问控制管理的带外访问器件,带外访问器件与各CPU(CPU0~CPUn,n为CPU的数量)之间均分别通过IC总线、LPC总线通信连接,以通过IC总线通道、LPC总线通道进行数据交互,其中IC总线通道被配置为外部设备对CPU的带外访问通道,带外访问器件通过IC总线通道访问不同CPU的RAS信息,LPC总线通道被配置为CPU主动上报信息通道,各CPU通过LPC总线通道将主动上报的RAS信息传递给带外访问器件。本实施例中带外访问器件具体为BMC,当然在其他实施例中也可以采用EC(电子元件)、MCU(微处理器)等器件实现,IC总线具体为I2C总线,当然在其他实施例中也可以采用I3C总线实现。
本实施例通过将I2C总线通道用于外部设备对CPU的带外访问通道,LPC总线通道作为CPU主动上报信息的通道,结合I2C、LPC总线通道两者形成双向的带外访问通道,可以高效实现带外管理双向访问,有效提高多路服务器系统中的带外访问效率,同时,由于I2C访问通道不需要依赖于CPU的软件处理,即在CPU无软件运行状态,也能正常访问CPU相关的RAS信息,因而通过I2C总线通道可以降低对软件的依赖程度,使得当CPU异常时仍然能够正常的获取RAS相关信息,以及在CPU初始化阶段也可以实现对RAS信息的访问。
本实施例中CPU的RAS信息包括CPU作为I2C设备的设备地址空间,该地址空间上存放各个CPU的RAS信息,因而BMC可以选择不同的时期进行RAS信息的读取,然后再对获取的RAS信息进行处理。上述CPU的RAS信息可以是能够体现CPU的可靠性、可用性、可服务性的各类硬件或软件信息,信息类型具体可以根据实际需求确定。
本实施例中,BMC通过I2C总线通道访问不同CPU的RAS信息时,由CPU作为slave设备,BMC作为master设备,使得BMC可以主动获取到CPU的信息,而不必被动等待CPU上报信息。BMC通过I2C总线通道访问不同CPU的RAS信息时,不同CPU定义有不同的I2C地址以进行区分,使得BMC能够通过I2C通道访问到不同CPU的RAS信息。CPU的I2C地址定义方式可以采用按CPU编号顺序编码的方式,也可以采用按照其他预设编码规则的方式为各CPU定义I2C地址,编码时使得每个CPU的I2C地址唯一,从而不同CPU可以依据各自的I2C地址进行区分,BMC通过各CPU的I2C地址即可唯一确定出各CPU。通过使用I2C总线通道作为BMC访问CPU的通道,BMC可以同时访问多个CPU,且基于不同的I2C地址,BMC在访问过程中不会存在访问冲突。
本实施例中,带外访问器件包括依次连接的信息收集模块、信息分析处理模块以及用于将信息发送模块,信息收集模块用于收集RAS信息,发送给信息分析处理模块,信息分析处理模块对接收到的RAS信息进行分析处理,得到的处理结果由信息发送模块进行发送。在OS操作阶段,运行信息收集模块,由该信息收集模块进行信息筛选以及传递。
本实施例中,当通过IC总线通道进行数据交互时,信息收集模块用于采用轮询方式读取各CPU的RAS信息。上述轮询方式即为由BMC按顺序定时发出访问请求,依序访问每一个CPU,访问完一个CPU后再访问下一个CPU,不断重复执行,以依序获取各CPU的RAS信息。通过采用轮询方式,BMC可以借助于I2C总线通道主动的获取各CPU的RAS信息,确保充分的获取到所有所需的CPU的RAS信息。
在具体应用实施例中,BMC中信息收集模块采用轮询方式时,可以配置为对所有CPU进行轮询,以轮询获取所有CPU的RAS信息,也可以配置为仅对部分CPU进行轮询,如由于不同CPU所承载的功能是不同的,则在不同的应用场景中,所需要关注的CPU可能是不同的,BMC轮询时可以仅配置为对需要关注的那部分CPU,以使得仅获取需要关注那部分CPU的RAS信息,以减少轮询执行的功耗。上述轮询方式的配置具体可以根据实际需求配置。
本实施例中,当通过I2C总线通道进行数据交互时,若处理结果存在错误信息,信息发送模块用于向CPU发送告警信息,以通知CPU进行故障处理。在BMC端,通过I2C总线通道访问到不同CPU的RAS信息后,由信息分析处理模块将不同CPU的RAS信息进行收集并进行分析处理,由信息发送模块将处理结果确定通知CPU的信息,如BMC进行分析处理时,信息分析处理模块具体分析CPU是否存在错误或故障信息、是否需要CPU的软件处理等,若处理结果存在错误或故障信息,则信息发送模块向CPU发送告警信息,以通知CPU进行故障处理,从而使得BMC可以主动上报故障信息给CPU;如果信息分析处理模块得出的处理结果需要CPU的软件处理,可以通过信息发送模块执行写入特定寄存器,由CPU的软件侦测寄存器的变化,做出对应的处理。上述信息收集模块、分析处理功能模块可以通过在BMC内部嵌入能够实现信息收集、信息分析处理功能的软件模块实现,其中分析处理模块除上述分析是否存在故障或者是否需要CPU的软件处理以外,还可以根据实际需求增加其他所需功能。
本实施例中,当通过LPC总线通道进行数据交互时,信息收集模块用于接收各CPU主动上报的RAS信息。当通过LPC总线通道进行数据交互时,信息发送模块用于将信息分析处理模块输出的处理结果反馈给对应的CPU。
在具体应用实施例中,信息发送模块具体可以预先为不同处理结果类型(如上述的故障信息类或者需要CPU软件处理类)设定对应的通知信息,当BMC得到实时处理结果后,判断处理结果类型,根据处理结果类型调用相应的通知信息发送给对应CPU,以实现BMC与CPU之间的快速反馈。可以理解的是,信息发送模块中将处理结果通知CPU的方式当然也可以根据实际需求采用其他的通知方式。
由I2C总线通道提供了BMC访问CPU的通道,使得CPU可以被动将RAS相关的信息传递到BMC,但是通过CPU的RAS信息有一定的局限性,如系统发送的软件错误以及外设的错误信息通过CPU的RAS寄存器地址反馈会存在困难,对于该部分信息,本实施例同时设置了LPC总线通道,由LPC总线通道作为CPU上报信息的通道,则使得CPU可以主动将对应的RAS信息传递到BMC。本实施例在LPC总线上,由CPU0作为master端,BMC作为slave端,通过CPU0可以将RAS信息主动通知到BMC。上述作为master端的CPU当然也可以根据实际需求(如重要程度等)配置为其他的CPU。上述主动上报的RAS信息可以为各类需要重点关注或及时处理的错误信息,如上述系统发送的软件错误以及外设的错误信息,也可以为需要重点关注或及时处理的其他类型信息。
本实施例中,在指定CPU上还设置有汇集传递模块,用于将指定类型的RAS信息通过CPU之间的互联通道汇集到目标CPU上,由目标CPU将汇集的RAS信息统一通过LPC总线通道传递到外部其他器件。具体除上述需要主动上报给BMC的信息外,由汇集传递模块将其它CPU的RAS信息通过互联通道汇聚到一个指定的CPU(本实施例具体为CPU0)上,由该CPU统一通过LPC通道传递到外部其它器件。本实施例中上述汇集传递模块具体内嵌在CPU0中,即为内嵌在CPU0内的能够实现上述信息汇集及传递功能的软件模块,当然在其他实施例中,汇集传递模块也可以配置在CPU的外部。可以理解的是,各CPU也可以采用分别与LPC总线通道连接的方式,以独立分散传递各CPU的RAS信息。
上述只是本发明的较佳实施例,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。因此,凡是未脱离本发明技术方案的内容,依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均应落在本发明技术方案保护的范围内。

Claims (17)

1.一种用于多路服务器系统的带外管理方法,所述多路服务器系统中各CPU通过LPC总线与带外访问器件连接,其特征在于,所述带外访问器件与各CPU还通过IC总线连接,所述带外管理方法通过将所述LPC总线、IC总线共同作为带外管理通道,其中:
所述带外访问器件通过IC总线通道访问不同CPU的RAS信息,所述IC总线通道被配置为所述带外访问器件对CPU的带外访问通道;
各CPU主动上报的RAS信息通过LPC总线通道传递给所述带外访问器件,所述LPC总线通道被配置为CPU主动上报信息通道。
2.根据权利要求1所述的用于多路服务器系统的带外管理方法,其特征在于:所述带外访问器件通过IC总线通道访问不同CPU的RAS信息时,由CPU作为slave设备,所述带外访问器件作为master设备。
3.根据权利要求1所述的用于多路服务器系统的带外管理方法,其特征在于:所述带外访问器件通过IC总线通道访问不同CPU的RAS信息时,不同CPU定义有不同的IC地址以进行区分。
4.根据权利要求1所述的用于多路服务器系统的带外管理方法,其特征在于:所述带外访问器件通过IC总线通道采用轮询方式访问不同CPU的RAS信息。
5.根据权利要求1所述的用于多路服务器系统的带外管理方法,其特征在于:所述带外访问器件通过IC总线通道访问不同CPU的RAS信息后还包括:由所述带外访问器件收集不同CPU的RAS信息,并对收集到的信息进行分析处理,根据处理结果通知CPU进行对应的处理。
6.根据权利要求5所述的用于多路服务器系统的带外管理方法,其特征在于,所述根据处理结果通知CPU进行相应的处理包括:若所述处理结果存在错误信息则向CPU发送告警信息,以通知CPU进行故障处理。
7.根据权利要求1~6中任意一项所述的用于多路服务器系统的带外管理方法,其特征在于:所述各CPU通过LPC总线通道将主动上报的RAS信息传递给带外访问器件时,由指定的CPU作为master端,所述带外访问器件作为slave端。
8.根据权利要求1~6中任意一项所述的用于多路服务器系统的带外管理方法,其特征在于,所述各CPU通过LPC总线通道将主动上报的RAS信息传递给带外访问器件后还包括:由所述带外访问器件接收各CPU上报的信息进行分析处理,并将处理结果反馈给对应的CPU。
9.根据权利要求1~6中任意一项所述的用于多路服务器系统的带外管理方法,其特征在于:各CPU主动上报的RAS信息通过LPC总线通道传递给所述带外访问器件包括:将指定类型的RAS信息通过CPU之间的互联通道汇集到目标CPU上,由所述目标CPU将汇集的RAS信息统一通过所述LPC总线通道传递到外部其他器件,或者各个CPU分别将各自的RAS信息通过所述LPC总线通道传递到外部其他器件。
10.一种用于多路服务器系统的带外管理装置,包括用于进行带外访问控制管理的带外访问器件,其特征在于,所述带外访问器件与各CPU之间均分别通过IC总线、LPC总线通信连接,以通过IC总线通道、LPC总线通道进行数据交互,其中所述IC总线通道被配置为所述带外访问器件对CPU的带外访问通道,所述带外访问器件通过所述IC总线通道访问不同CPU的RAS信息,所述LPC总线通道被配置为CPU主动上报信息通道,各CPU主动上报的RAS信息通过所述LPC总线通道传递给所述带外访问器件。
11.根据权利要求10所述的用于多路服务器系统的带外管理装置,其特征在于:所述带外访问器件包括依次连接的信息收集模块、信息分析处理模块以及用于将信息发送模块,所述信息收集模块用于收集RAS信息,发送给所述信息分析处理模块,所述信息分析处理模块对接收到的RAS信息进行分析处理,得到的处理结果由所述信息发送模块进行发送。
12.根据权利要求11所述的用于多路服务器系统的带外管理装置,其特征在于:当通过所述IC总线通道进行数据交互时,所述信息收集模块用于采用轮询方式读取各CPU的RAS信息。
13.根据权利要求11所述的用于多路服务器系统的带外管理装置,其特征在于:当通过所述LPC总线通道进行数据交互时,所述信息收集模块用于接收各CPU主动上报的RAS信息。
14.根据权利要求11所述的用于多路服务器系统的带外管理装置,其特征在于:当通过所述IC总线通道进行数据交互时,若所述处理结果存在错误信息,所述信息发送模块用于向CPU发送告警信息,以通知CPU进行故障处理。
15.根据权利要求11所述的用于多路服务器系统的带外管理装置,其特征在于:当通过所述LPC总线通道进行数据交互时,所述信息发送模块用于将所述信息分析处理模块输出的处理结果反馈给对应的CPU。
16.根据权利要求10~15中任意一项所述的用于多路服务器系统的带外管理装置,其特征在于:各CPU分别与LPC总线通道连接,以传递各CPU的RAS信息,或者在指定CPU上设置汇集传递模块,用于将指定类型的RAS信息通过CPU之间的互联通道汇集到指定CPU上,并将汇集的RAS信息通过LPC总线通道进行传递。
17.根据权利要求10~15中任意一项所述的用于多路服务器系统的带外管理装置,其特征在于:所述带外访问器件为BMC、EC、MCU中任意一种。
CN202210028670.9A 2022-01-11 2022-01-11 用于多路服务器系统的带外管理方法及装置 Active CN114528234B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210028670.9A CN114528234B (zh) 2022-01-11 2022-01-11 用于多路服务器系统的带外管理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210028670.9A CN114528234B (zh) 2022-01-11 2022-01-11 用于多路服务器系统的带外管理方法及装置

Publications (2)

Publication Number Publication Date
CN114528234A true CN114528234A (zh) 2022-05-24
CN114528234B CN114528234B (zh) 2023-03-21

Family

ID=81621229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210028670.9A Active CN114528234B (zh) 2022-01-11 2022-01-11 用于多路服务器系统的带外管理方法及装置

Country Status (1)

Country Link
CN (1) CN114528234B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114706703A (zh) * 2022-03-23 2022-07-05 飞腾信息技术有限公司 多路服务器系统故障诊断装置、系统及方法
WO2024082831A1 (zh) * 2022-10-21 2024-04-25 超聚变数字技术有限公司 一种服务器中处理器信息的带外查询/配置方法及服务器

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140189177A1 (en) * 2013-01-03 2014-07-03 International Business Machines Corporation High speed overlay of idle i2c bus bandwidth
CN105335330A (zh) * 2015-12-09 2016-02-17 浪潮电子信息产业股份有限公司 一种基于主从架构的微服务器集群系统
CN112667470A (zh) * 2020-12-25 2021-04-16 苏州浪潮智能科技有限公司 一种服务器功率评估及检测的系统、方法及介质
CN213276460U (zh) * 2020-11-25 2021-05-25 海光信息技术股份有限公司 一种双路服务器主板及服务器

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140189177A1 (en) * 2013-01-03 2014-07-03 International Business Machines Corporation High speed overlay of idle i2c bus bandwidth
CN105335330A (zh) * 2015-12-09 2016-02-17 浪潮电子信息产业股份有限公司 一种基于主从架构的微服务器集群系统
CN213276460U (zh) * 2020-11-25 2021-05-25 海光信息技术股份有限公司 一种双路服务器主板及服务器
CN112667470A (zh) * 2020-12-25 2021-04-16 苏州浪潮智能科技有限公司 一种服务器功率评估及检测的系统、方法及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵东阳等: "NUMA架构的龙芯3A板级设计及工程化技术研究", 《计算机工程与应用》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114706703A (zh) * 2022-03-23 2022-07-05 飞腾信息技术有限公司 多路服务器系统故障诊断装置、系统及方法
WO2024082831A1 (zh) * 2022-10-21 2024-04-25 超聚变数字技术有限公司 一种服务器中处理器信息的带外查询/配置方法及服务器

Also Published As

Publication number Publication date
CN114528234B (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
CN114528234B (zh) 用于多路服务器系统的带外管理方法及装置
USRE47289E1 (en) Server system and operation method thereof
KR940006821B1 (ko) 진단 시스템
US7797292B2 (en) Apparatus, system, and method for an alternate lock facility connection path
US20040228063A1 (en) IPMI dual-domain controller
CN111966189B (zh) 一种灵活配置的多计算节点服务器主板结构和程序
US6175931B1 (en) Global hard error distribution using the SCI interconnect
JP2017507432A (ja) 複数のセンサを有する測定システム
CN111767244A (zh) 基于国产龙芯平台的双冗余计算机设备
US8122301B2 (en) Performing remote loads and stores over networks
CN116541227B (zh) 故障诊断方法、装置、存储介质、电子装置及bmc芯片
US10298479B2 (en) Method of monitoring a server rack system, and the server rack system
CN101232556A (zh) 半导体集成电路和数据处理系统
CN114201439B (zh) 服务器信号识别优化方法、系统及存储介质
CN111966617B (zh) 一种传感信息通讯方法、中央处理器和基板管理控制器
US20140173365A1 (en) Semiconductor apparatus, management apparatus, and data processing apparatus
CN107659413B (zh) 小型通信设备
JPH0675887A (ja) ポーリング間隔決定方式
CN115964257B (zh) 一种基于系统中断设计的报警装置及方法
CN102223244A (zh) 服务器系统
CN117992386A (zh) 基于pcie总线的信号处理模块灵活配置的方法及设备
EP2555116A1 (en) Multi-cluster system
Kozak et al. Real-Time IPMI Protocol Analyzer
CN117725011A (zh) 主机桥接设备
CN116955264A (zh) 通信连接的建立方法及装置、存储介质、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant