CN113190395A - 一种状态监控方法及装置 - Google Patents

一种状态监控方法及装置 Download PDF

Info

Publication number
CN113190395A
CN113190395A CN202110276634.XA CN202110276634A CN113190395A CN 113190395 A CN113190395 A CN 113190395A CN 202110276634 A CN202110276634 A CN 202110276634A CN 113190395 A CN113190395 A CN 113190395A
Authority
CN
China
Prior art keywords
command
board card
read
reading
address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110276634.XA
Other languages
English (en)
Other versions
CN113190395B (zh
Inventor
林震华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Information Technologies Co Ltd
Original Assignee
New H3C Information Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Information Technologies Co Ltd filed Critical New H3C Information Technologies Co Ltd
Priority to CN202110276634.XA priority Critical patent/CN113190395B/zh
Publication of CN113190395A publication Critical patent/CN113190395A/zh
Application granted granted Critical
Publication of CN113190395B publication Critical patent/CN113190395B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3027Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a bus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/321Display for diagnostics, e.g. diagnostic result display, self-test user interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本说明书提供一种状态监控方法及装置,涉及通信技术领域。一种状态监控方法,应用于服务器中的管理控制器,包括:通过管理控制器与服务器中的板卡连接的总线发送携带有部件地址、读取起始地址和读取长度的读取命令,以使部件地址所指定的目标板卡从读取起始地址开始按照读取长度对目标板卡上的存储介质中进行读取,并反馈针对读取命令的应答命令;接收应答命令,并存储应答命令中所携带的监控信息。通过上述方法,能够提高获取监控信息的效率,提升对服务器进行诊断分析的准确性。

Description

一种状态监控方法及装置
技术领域
本说明书涉及通信技术领域,尤其涉及一种状态监控方法及装置。
背景技术
随着数据中心、云计算和大数据等领域的应用,服务器在数据存储和运算等方面发挥的作用逐步提升,对于服务器的管理和运维也提出了更大需求。
在服务器中,通过在服务器的主板上设置管理控制器可以实现对于服务器中部件相关的信息进行写入、读取和状态的监控。该管理控制器可以为主板上独立于处理器的芯片,或以插卡形式设置于主板的连接器。通过该管理控制器可以获取主板上所设置的器件,比如风扇、电源、温度传感器和内存等或主板上所插接的板卡(比如网卡和图像处理单元等)的状态信息和参数信息并进行存储。这样一来,服务器的带外管理设备,可以通过直接连接到管理控制器或远程访问管理控制器获取这些状态信息和参数信息实现对于服务器的监控和管理。
但是在管理控制器获取部件相关的信息时,需要基于管理控制器与部件连接的总线逐一下发命令进行读取,这无疑会提升管理控制器和对应板卡之间的交互消耗,并且,由于针对故障诊断等方面,获取的状态信息具有很强的时效性,但是,通过逐一下发命令的方式获取状态信息,使获取到的、不同部件之间的状态信息缺乏时间维度的一致性,从而导致工作人员根据获取到的状态信息进行故障诊断所得出的结论不准确,降低了故障诊断的可靠性。
发明内容
为克服相关技术中存在的问题,本说明书提供了一种状态监控方法及装置。
结合本说明书实施方式的第一方面,本申请提供了一种状态监控方法,应用于服务器中的管理控制器,包括:
通过管理控制器与服务器中的板卡连接的总线发送携带有部件地址、读取起始地址和读取长度的读取命令,以使部件地址所指定的目标板卡从读取起始地址开始按照读取长度对目标板卡上的存储介质中进行读取,并反馈针对读取命令的应答命令;
接收应答命令,并存储应答命令中所携带的监控信息。
可选的,通过管理控制器与服务器中的板卡连接的总线发送携带有部件地址、读取起始地址和读取长度的读取命令,包括:
在服务器上电后,通过管理控制器与服务器中的板卡连接的总线发送第一读取命令,其中,第一读取命令中携带有对应于目标板卡的部件地址、第一读取起始地址和第一读取长度,第一读取起始地址用于指向目标板卡中所存储的基础信息;
接收应答命令,并存储应答命令中所携带的监控信息,包括:
接收目标板卡针对第一读取命令所反馈的第一应答命令,其中,监控信息包括第一应答命令中携带的目标板卡的基础信息;
存储基础信息。
进一步的,通过管理控制器与服务器中的板卡连接的总线发送携带有部件地址、读取起始地址和读取长度的读取命令,还包括:
在存储类型信息之后,根据存储的基础信息,通过管理控制器与服务器中的板卡连接的总线发送第二读取命令,其中,第二读取命令中携带有对应于目标板卡的部件地址、第二读取起始地址和第二读取长度,第二读取起始地址用于指向目标板卡中所存储的硬件参数信息;
接收应答命令,并存储应答命令中所携带的监控信息,还包括:
接收目标板卡针对第二读取命令所反馈的第二应答命令,其中,监控信息还包括第二应答命令中携带的目标板卡的硬件参数信息;
存储硬件参数信息。
可选的,通过管理控制器与服务器中的板卡连接的总线发送携带有部件地址、读取起始地址和读取长度的读取命令,还包括:
通过管理控制器与服务器中的板卡连接的总线发送第三读取命令,其中,第三读取命令中携带有对应于目标板卡的部件地址、第三读取起始地址和第三读取长度,第三读取起始地址用于指向目标板卡中所存储的器件状态信息;
接收应答命令,并存储应答命令中所携带的监控信息,包括:
接收目标板卡针对第三读取命令所反馈的第三应答命令,其中,监控信息包括第三应答命令中携带的目标板卡的器件状态信息;
存储器件状态信息。
可选的,该方法,还包括:
通过管理控制器与服务器中的板卡连接的总线发送携带有部件地址、写入起始地址、数据和写入长度的写入命令,以使部件地址所指定的目标板卡从写入起始地址开始按照读取长度在目标板卡上的存储介质中写入待写入数据,并反馈针对写入命令的应答命令。
结合本说明书实施方式的第二方面,本申请提供了一种状态监控方法,应用于服务器中的板卡,包括:
接收管理控制器发送的读取命令,其中,读取命令中携带有部件地址、读取起始地址和读取长度的读取命令;
若部件地址确定读取命令为自身地址,则从读取起始地址开始按照读取长度读取存储介质;
向管理控制器发送针对读取命令的应答命令,其中,应答命令中携带有该存储介质中存储的监控信息。
可选的,该方法,还包括:
接收管理控制器发送的写入命令,其中,写入命令中携带有部件地址、写入起始地址、待写入数据和写入长度的写入命令;
若部件地址确定写入命令为自身地址,则从写入起始地址开始按照写入长度将数据写入对应的存储介质;
向管理控制器发送针对写入命令的应答命令。
结合本说明书实施方式的第三方面,本申请提供了一种状态监控装置,应用于服务器中的管理控制器,包括:
第一发送单元,用于通过管理控制器与服务器中的板卡连接的总线发送携带有部件地址、读取起始地址和读取长度的读取命令,以使部件地址所指定的目标板卡从读取起始地址开始按照读取长度对目标板卡上的存储介质中进行读取,并反馈针对读取命令的应答命令;
第一接收单元,用于接收应答命令;
存储单元,用于存储应答命令中所携带的监控信息。
可选的,第一发送单元,包括:
基础信息读取模块,用于在服务器上电后,通过管理控制器与服务器中的板卡连接的总线发送第一读取命令,其中,第一读取命令中携带有对应于目标板卡的部件地址、第一读取起始地址和第一读取长度,第一读取起始地址用于指向目标板卡中所存储的基础信息;
第一接收单元,包括:
基础信息接收模块,用于接收目标板卡针对第一读取命令所反馈的第一应答命令,其中,监控信息包括第一应答命令中携带的目标板卡的基础信息;
存储单元,具体用于存储基础信息。
进一步的,第一发送单元,还包括:
参数读取模块,用于在存储类型信息之后,根据存储的类型信息,通过管理控制器与服务器中的板卡连接的总线发送第二读取命令,其中,第二读取命令中携带有对应于目标板卡的部件地址、第二读取起始地址和第二读取长度,第二读取起始地址用于指向目标板卡中所存储的硬件参数信息;
第一接收单元,还包括:
参数接收模块,用于接收目标板卡针对第二读取命令所反馈的第二应答命令,其中,监控信息还包括第二应答命令中携带的目标板卡的硬件参数信息;
存储单元,还用于存储硬件参数信息。
可选的,第一接收单元,还包括:
状态读取模块,用于通过管理控制器与服务器中的板卡连接的总线发送第三读取命令,其中,第三读取命令中携带有对应于目标板卡的部件地址、第三读取起始地址和第三读取长度,第三读取起始地址用于指向目标板卡中所存储的器件状态信息;
第一接收单元,包括:
状态接收模块,用于接收目标板卡针对第三读取命令所反馈的第三应答命令,其中,监控信息包括第三应答命令中携带的目标板卡的器件状态信息;
存储单元,还用于存储器件状态信息。
可选的,该装置,还包括:
写入单元,用于通过管理控制器与服务器中的板卡连接的总线发送携带有部件地址、写入起始地址、待写入数据和写入长度的写入命令,以使部件地址所指定的目标板卡从写入起始地址开始按照读取长度在目标板卡上的存储介质中写入待写入数据,并反馈针对写入命令的应答命令。
结合本说明书实施方式的第四方面,本申请提供了一种状态监控装置,应用于服务器中的板卡,包括:
第二接收单元,用于接收管理控制器发送的读取命令,其中,读取命令中携带有部件地址、读取起始地址和读取长度的读取命令;
获取单元,用于若部件地址确定读取命令为自身地址,则从读取起始地址开始按照读取长度读取存储介质;
第二发送单元,用于向管理控制器发送针对读取命令的应答命令,其中,应答命令中携带有该存储介质中存储的监控信息。
可选的,该装置,还包括:写入单元;
第二接收单元,还用于接收管理控制器发送的写入命令,其中,写入命令中携带有部件地址、写入起始地址、待写入数据和写入长度的写入命令;
写入单元,用于若部件地址确定写入命令为自身地址,则从写入起始地址开始按照写入长度将数据写入对应的存储介质;
第二发送单元,还用于向管理控制器发送针对写入命令的应答命令。
本说明书的实施方式提供的技术方案可以包括以下有益效果:
本说明书实施方式中,通过管理控制器和服务器的板卡之间所连接的总线,发送基于总线协议的命令时,携带目标板卡的部件地址和读取信息的读取起始地址,按照读取长度从读取起始地址批量地读取目标板卡上所存储的监控信息,并在管理控制器中进行存储,从而使管理控制器从目标板卡上读取监控信息时,所获取的监控信息在时间维度能够得到统一,提升了基于监控信息进行故障诊断的可靠性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施方式,并与说明书一起用于解释本说明书的原理。
图1是本申请的实施方式所提供的一种状态监控方法的流程示意图,应用于管理控制器;
图2是本申请的实施方式所提供的一种服务器的结构示意图;
图3是本申请的实施方式所提供的一种状态监控方法的流程示意图,应用于板卡;
图4是本申请的实施方式所提供的一种状态监控装置的结构示意图,应用于管理控制器;
图5是本申请的实施方式所提供的一种状态监控装置的结构示意图,应用于板卡。
具体实施方式
这里将详细地对示例性实施方式进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施方式中所描述的实施方式并不代表与本说明书相一致的所有实施方式。
本申请提供了一种状态监控方法,应用于服务器中的管理控制器,如图1所示,包括:
S100、通过管理控制器与服务器中的板卡连接的总线发送携带有部件地址、读取起始地址和读取长度的读取命令,以使部件地址所指定的目标板卡从读取起始地址开始按照读取长度对目标板卡上的存储介质中进行读取,并反馈针对读取命令的应答命令。
需要说明的是,管理控制器可以是BMC(基板管理控制器,Baseboard ManagementController),也可以是HDM(H3C设备管理,H3C Device Management)或具有服务器的监控和管理功能的芯片。
如图2所示,位于服务器的主板上的管理控制器可以通过SMBus(系统管理总线,System Management Bus)或I2C总线(集成电路总线,Inter-Integrated Circuit)与板卡相连接,以进行数据的交互。在上述的总线中,包含有一条时钟线和一条数据线,在该总线上连接有多块板卡。在数据线上传输读取命令和写入命令时,携带有部件的地址信息,称为部件地址,与该部件地址相对应的板卡,可以称为目标板卡。板卡可以根据该部件地址确定后续的数据是否应该为自身所接收的数据。在板卡上还具有MCU(微控制单元,MicroControl Unit)等用于处理管理控制器所下发的命令,或板卡所产生的数据等。在服务器还可以设置有FRU(Field Replace Unit,现场可更换单元),该FRU用于保存服务器中资产相关的信息,一般可以是EEPROM(带电可擦可编程只读存储器,Electrically ErasableProgrammable Read Only Memory)。
在读取命令和写入命令中,还可以携带有读取起始地址,用于指示板卡从存储介质(包含寄存器和存储器)的哪个地址开始读取数据,存储器可以是设置有服务器的板卡上所设置的闪存。在寄存器或存储器中存储有板卡自身收集的监控信息,这些监控信息可以是包括板卡类型和芯片类型等的基础信息,板卡上具有的器件的硬件参数信息,例如该硬件参数信息可以包含有额定功率、内存容量、用于运算的核数等,以及与状态监控的相关传感器的状态信息,例如风扇的转速传感器、温度传感器以及检测电流和电压的电路传感器所获取的信息等。
在板卡接收到读取命令后,根据部件地址确定自身既是该读取命令所对应的目标板卡时,基于读取命令中所携带的读取起始地址和读取长度,读出从读取起始地址开始计算该读取长度的监控信息。读出这部分监控信息后,板卡向管理控制器反馈应答命令,该应答命令中携带监控信息。
S101、接收应答命令,并存储应答命令中所携带的监控信息。
在管理控制器接收到目标板卡反馈的应答命令后,可以对该应答命令进行解析,获取其中所携带的监控信息,并对该监控信息进行存储。该应答命令同样是基于所应用的总线协议,该应答命令与读取命令相对应,在此不再展开描述。
当用户通过远程访问或直连访问的方式对管理控制器进行访问时,就将自身所存储的监控信息发送给用户进行展示,以使用户根据这些监控信息对服务器进行诊断。
由于在管理控制器获取监控信息的过程中,可以通过一次的读取命令,从板卡上获取到从起始地址开始一定范围的数据,这些数据在时间维度上具有统一性,因此,能够提升用户对服务器进行诊断分析的准确性。
可选的,步骤S100、通过管理控制器与服务器中的板卡连接的总线发送携带有部件地址、读取起始地址和读取长度的读取命令,包括:
S100A、在服务器上电后,通过管理控制器与服务器中的板卡连接的总线发送第一读取命令。
其中,第一读取命令中携带有对应于目标板卡的部件地址、第一读取起始地址和第一读取长度,第一读取起始地址用于指向目标板卡中所存储的基础信息。
在板卡中,可以将寄存器和存储器中所存储监控信息的位置进行固定,比如,服务器的EEPROM中可以保存有一些与服务器相关的资产信息,该资产信息为静态数据,在闪存中可以保存相关的参数和监控信息等,一般来说,EEPROM中的资产信息需要在服务器出厂前进行烧录,而闪存中的参数和监控信息等在服务器运行过程中生成。在这些存储器中,将地址和长度对应到预设的监控信息,这样一来,监控信息便可以对应的存储到所划定的存储器中。后续以读取和写入闪存中所保存的监控信息为例进行描述,对于FRU而言,读写方式与后述对闪存的读写相同,不再展开描述。
在服务器上电启动后,管理控制器开始工作,管理控制器先向板卡发送第一读取命令。此时,管理控制器可以通过轮询的方式,从第一个PCIE(外围部件互联总线,Peripheral Component Interconnect Express)插槽开始发送第一读取命令。
之后,板卡将第一读取命令所指向的寄存器中的值读出并附加在向管理控制器反馈的、相对于第一读取命令的应答命令。第一读取命令所指向的第一读取起始地址为存储板卡的基础信息的基础段。其中,可以包括板卡的封装类型、传输速率、PCIE的供应商标识和PCIE的设备标识等等,在这些字节中还包括一些保留字节,用于用户进行定义。对于所携带的起始地址,可以基于协议以及存储器、寄存器上的地址大小进行设置,比如可以将起始地址分为高位段和低位段两段,在板卡接收到之后通过拼接高位段和低位段确定完整的起始地址。具体的在读取/写入命令中,可以是先发送高位段,也可以先发送低位段,对此不做限制,仅需要管理控制器和板卡之间预先设置即可。
比如,存储基础信息的基础段可以为闪存中的第0~63字节。第一读取命令中的第一读取起始地址即指向闪存的第0字节,第一读取长度则可以是第0~63字节,这64字节。
步骤S101、接收应答命令,并存储应答命令中所携带的监控信息,包括:
S101A、接收目标板卡针对第一读取命令所反馈的第一应答命令。
其中,监控信息包括第一应答命令中携带的目标板卡的基础信息。板卡将闪存的基础段中的0~63字节读出,并附加到第一应答命令中反馈给管理控制器。
S101B、存储基础信息。
在管理控制器获取到第一应答命令后,对该第一应答命令进行解析,从中获取到基础信息并存储。
进一步的,步骤S100、通过管理控制器与服务器中的板卡连接的总线发送携带有部件地址、读取起始地址和读取长度的读取命令,还包括:
S100B、在存储基础信息之后,根据存储的基础信息,通过管理控制器与服务器中的板卡连接的总线发送第二读取命令。
其中,第二读取命令中携带有对应于目标板卡的部件地址、第二读取起始地址和第二读取长度,第二读取起始地址用于指向目标板卡中所存储的硬件参数信息。
在闪存中,还可以固定有扩展段,比如闪存中的第64~95字节,可以包括额定功率、内存容量和用于运算的核数等。在管理控制器获取到基础信息后,可以根据基础信息确定在闪存的扩展段中需要获取的数据(即目标板卡中所存储的硬件参数信息),从而在向目标板卡(步骤S100A、步骤S101A中所指向的目标板卡)发送第二读取命令。第二读取命令中的第二读取起始地址就可以为闪存中的第64字节所对应的地址,第二读取长度可以是32字节。
另外,在闪存中,还可以固定有供应商指定段,比如闪存中的第96~127字节,用于容纳供应商所预设的内容,这些内容可以是在供应商制备板卡时预先写入至闪存中。如果包含供应商指定段,则第二读取命令中的第二读取长度可以是第64-127段这64字节。
步骤S101、接收应答命令,并存储应答命令中所携带的监控信息,还包括:
S101C、接收目标板卡针对第二读取命令所反馈的第二应答命令。
其中,监控信息还包括第二应答命令中携带的目标板卡的硬件参数信息。
S101D、存储硬件参数信息。
在管理控制器获取到第二应答命令后,对该第二应答命令进行解析,从中获取到硬件参数信息并存储。
可选的,步骤S100、通过管理控制器与服务器中的板卡连接的总线发送携带有部件地址、读取起始地址和读取长度的读取命令,还包括:
S100C、通过管理控制器与服务器中的板卡连接的总线发送第三读取命令。
其中,第三读取命令中携带有对应于目标板卡的部件地址、第三读取起始地址和第三读取长度,第三读取起始地址用于指向目标板卡中所存储的器件状态信息。
在闪存中,还可以固定有状态/控制段,这部分可以根据实际的需求划分。比如闪存中的第128~151字节,可以包括各类告警门限,用于设定板卡在检测到器件的状态信息的值到达告警门限时可以向管理控制器上送通知,比如第152~165字节可以包括对应器件的状态信息,可以包括CPU、GPU的当前状态和电源的当前状态等,比如闪存中的第170~231字节,可以包括模组内部的温度测量值、风扇的温度值、模组中PCIE的电流、功率和电压等测量值,比如闪存中的第242~318字节,可以包括预警标记等等。当然,除上述的闪存中的各字节外,还可以包含有其他的内容,这部分内容可以根据用户的实际需求进行设置对此不做限定。
在管理控制器获取到硬件参数信息后,服务器也已经完成了初始化并正常运行。此后,管理控制器可以周期性地或者根据板卡上送的通知获取板卡的闪存中所记录的器件状态信息。具体获取的方式,即向板卡发送第三读取命令,该命令中的部件地址仍为目标板卡,第三读取起始地址为本次需要读取的起始地址,用于指向目标板卡中所存储的器件状态信息,第三读取长度为该第三读取起始地址后需要读取内容的长度。
当然,第三读取命令也可以按照需求多次下发,而下发的次数可以根据需要读取的内容设定第三读取起始地址和第三读取长度。比如第一次下发第三读取命令时,第三读取起始地址为闪存中的第96~127字节,第三读取长度为32字节,比如第二次下发第三读取命令时,第三读取起始地址为闪存中的第128~151字节,第三读取长度为32字节。后续,还可以包含其他的读取过程,在此不一一展开描述。
步骤S101、接收应答命令,并存储应答命令中所携带的监控信息,包括:
S101E、接收目标板卡针对第三读取命令所反馈的第三应答命令。
其中,监控信息包括第三应答命令中携带的目标板卡器件状态信息。
S101F、存储器件状态信息。
在管理控制器获取到第三应答命令后,对该第三应答命令进行解析,从中获取到器件状态信息并存储。
可选的,该方法,还包括:
S102、通过管理控制器与服务器中的板卡连接的总线发送携带有部件地址、写入起始地址、待写入数据和写入长度的写入命令,以使部件地址所指定的目标板卡从写入起始地址开始按照读取长度在目标板卡上的存储介质中写入待写入数据,并反馈针对写入命令的应答命令。
在服务器上电,管理控制器可以进行工作后,可以对板卡进行管理。这里的管理则可以用户根据需求控制管理控制器向板卡的闪存写入对应的数据。比如在闪存中的第166~169字节中,可以设置板卡的中断屏蔽位,该中断屏蔽位可以屏蔽板卡在检测到温度告警后,不向管理控制器上送中断来完成告警。当然,也可以包含其他字节用于实现管理控制器对板卡的控制,对此不再展开描述。
该待写入数据可以指写入到闪存中的数据,比如,供应商标识、风扇的告警门限、固件版本以及被屏蔽的中断等等信息,对比不再展开描述。
相对应的,本申请还提供了一种状态监控方法,应用于服务器中的板卡,如图3所示,包括:
S200、接收管理控制器发送的读取命令。
其中,读取命令中携带有部件地址、读取起始地址和读取长度的读取命令。
S201、若部件地址确定读取命令为自身地址,则从读取起始地址开始按照读取长度读取寄存器。
S202、向管理控制器发送针对读取命令的应答命令。
其中,应答命令中携带有该寄存器中存储的监控信息。监控信息可以包含有基础信息、硬件参数信息和器件状态信息。
步骤S200~S201与步骤S100~S101相对应,用于表示与管理控制器相对应的过程,获取读取命令,根据读取命令中的读取起始地址开始读取预设长度的数据,并将读取出的数据通过应答命令反馈给管理控制器进行存储。
可选的,该方法,还包括:
S203、接收管理控制器发送的写入命令。
其中,写入命令中携带有部件地址、写入起始地址、待写入数据和写入长度的写入命令。
S204、若部件地址确定写入命令为自身地址,则从写入起始地址开始按照写入长度将数据写入对应的存储介质。
S205、向管理控制器发送针对写入命令的应答命令。
本说明书实施方式中,通过管理控制器和服务器的板卡之间所连接的总线,发送基于总线协议的命令时,携带目标板卡的部件地址和读取信息的读取起始地址,按照读取长度从读取起始地址批量地读取目标板卡上所存储的监控信息,并在管理控制器中进行存储,从而使管理控制器从目标板卡上读取监控信息时,所获取的监控信息在时间维度能够得到统一,提升了基于监控信息进行故障诊断的可靠性。
相对应的,本申请提供了一种状态监控装置,如图4所示,应用于服务器中的管理控制器,包括:
第一发送单元,用于通过管理控制器与服务器中的板卡连接的总线发送携带有部件地址、读取起始地址和读取长度的读取命令,以使部件地址所指定的目标板卡从读取起始地址开始按照读取长度对目标板卡上的存储介质中进行读取,并反馈针对读取命令的应答命令;
第一接收单元,用于接收应答命令;
存储单元,用于存储应答命令中所携带的监控信息。
可选的,第一发送单元,包括:
基础信息读取模块,用于在服务器上电后,通过管理控制器与服务器中的板卡连接的总线发送第一读取命令,其中,第一读取命令中携带有对应于目标板卡的部件地址、第一读取起始地址和第一读取长度,第一读取起始地址用于指向目标板卡中所存储的基础信息;
第一接收单元,包括:
基础信息接收模块,用于接收目标板卡针对第一读取命令所反馈的第一应答命令,其中,监控信息包括第一应答命令中携带的目标板卡的基础信息;
存储单元,具体用于存储基础信息。
进一步的,第一发送单元,还包括:
参数读取模块,用于在存储类型信息之后,根据存储的类型信息,通过管理控制器与服务器中的板卡连接的总线发送第二读取命令,其中,第二读取命令中携带有对应于目标板卡的部件地址、第二读取起始地址和第二读取长度,第二读取起始地址用于指向目标板卡中所存储的硬件参数信息;
第一接收单元,还包括:
参数接收模块,用于接收目标板卡针对第二读取命令所反馈的第二应答命令,其中,监控信息还包括第二应答命令中携带的目标板卡的硬件参数信息;
存储单元,还用于存储硬件参数信息。
可选的,第一接收单元,还包括:
状态读取模块,用于通过管理控制器与服务器中的板卡连接的总线发送第三读取命令,其中,第三读取命令中携带有对应于目标板卡的部件地址、第三读取起始地址和第三读取长度,第三读取起始地址用于指向目标板卡中所存储的器件状态信息;
第一接收单元,包括:
状态接收模块,用于接收目标板卡针对第三读取命令所反馈的第三应答命令,其中,监控信息包括第三应答命令中携带的目标板卡的器件状态信息;
存储单元,还用于存储器件状态信息。
可选的,该装置,还包括:
写入单元,用于通过管理控制器与服务器中的板卡连接的总线发送携带有部件地址、写入起始地址、待写入数据和写入长度的写入命令,以使部件地址所指定的目标板卡从写入起始地址开始按照读取长度在目标板卡上的存储介质中写入待写入数据,并反馈针对写入命令的应答命令。
相对应的,本申请提供了一种状态监控装置,如图5所示,应用于服务器中的板卡,包括:
第二接收单元,用于接收管理控制器发送的读取命令,其中,读取命令中携带有部件地址、读取起始地址和读取长度的读取命令;
获取单元,用于若部件地址确定读取命令为自身地址,则从读取起始地址开始按照读取长度对读取的存储介质;
第二发送单元,用于向管理控制器发送针对读取命令的应答命令,其中,应答命令中携带有该存储介质中存储的监控信息。
可选的,该装置,还包括:写入单元;
第二接收单元,还用于接收管理控制器发送的写入命令,其中,写入命令中携带有部件地址、写入起始地址、待写入数据和写入长度的写入命令;
写入单元,用于若部件地址确定写入命令为自身地址,则从写入起始地址开始按照写入长度将数据写入对应的存储介质;
第二发送单元,还用于向管理控制器发送针对写入命令的应答命令。
本说明书的实施方式提供的技术方案可以包括以下有益效果:
本说明书实施方式中,通过管理控制器和服务器的板卡之间所连接的总线,发送基于总线协议的命令时,携带目标板卡的部件地址和读取信息的读取起始地址,按照读取长度从读取起始地址批量地读取目标板卡上所存储的监控信息,并在管理控制器中进行存储,从而使管理控制器从目标板卡上读取监控信息时,所获取的监控信息在时间维度能够得到统一,提升了基于监控信息进行故障诊断的可靠性。
应当理解的是,本说明书并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。
以上所述仅为本说明书的较佳实施方式而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。

Claims (14)

1.一种状态监控方法,其特征在于,应用于服务器中的管理控制器,包括:
通过所述管理控制器与所述服务器中的板卡连接的总线发送携带有部件地址、读取起始地址和读取长度的读取命令,以使所述部件地址所指定的目标板卡从所述读取起始地址开始按照所述读取长度对所述目标板卡上的存储介质中进行读取,并反馈针对所述读取命令的应答命令;
接收所述应答命令,并存储所述应答命令中所携带的监控信息。
2.根据权利要求1所述的方法,其特征在于,所述通过所述管理控制器与所述服务器中的板卡连接的总线发送携带有部件地址、读取起始地址和读取长度的读取命令,包括:
在所述服务器上电后,通过所述管理控制器与所述服务器中的板卡连接的总线发送第一读取命令,其中,所述第一读取命令中携带有对应于目标板卡的部件地址、第一读取起始地址和第一读取长度,所述第一读取起始地址用于指向所述目标板卡中所存储的基础信息;
所述接收所述应答命令,并存储所述应答命令中所携带的监控信息,包括:
接收所述目标板卡针对所述第一读取命令所反馈的第一应答命令,其中,所述监控信息包括所述第一应答命令中携带的所述目标板卡的基础信息;
存储所述基础信息。
3.根据权利要求2所述的方法,其特征在于,所述通过所述管理控制器与所述服务器中的板卡连接的总线发送携带有部件地址、读取起始地址和读取长度的读取命令,还包括:
在存储所述基础信息之后,根据所述存储的基础信息,通过所述管理控制器与所述服务器中的板卡连接的总线发送第二读取命令,其中,所述第二读取命令中携带有对应于目标板卡的部件地址、第二读取起始地址和第二读取长度,所述第二读取起始地址用于指向所述目标板卡中所存储的硬件参数信息;
所述接收所述应答命令,并存储所述应答命令中所携带的监控信息,还包括:
接收所述目标板卡针对所述第二读取命令所反馈的第二应答命令,其中,所述监控信息还包括所述第二应答命令中携带的所述目标板卡的硬件参数信息;
存储所述硬件参数信息。
4.根据权利要求1所述的方法,其特征在于,所述通过所述管理控制器与所述服务器中的板卡连接的总线发送携带有部件地址、读取起始地址和读取长度的读取命令,还包括:
通过所述管理控制器与所述服务器中的板卡连接的总线发送第三读取命令,其中,所述第三读取命令中携带有对应于目标板卡的部件地址、第三读取起始地址和第三读取长度,所述第三读取起始地址用于指向所述目标板卡中所存储的器件状态信息;
所述接收所述应答命令,并存储所述应答命令中所携带的监控信息,包括:
接收所述目标板卡针对所述第三读取命令所反馈的第三应答命令,其中,所述监控信息包括所述第三应答命令中携带的所述目标板卡的器件状态信息;
存储所述器件状态信息。
5.根据权利要求1所述的方法,其特征在于,还包括:
通过所述管理控制器与所述服务器中的板卡连接的总线发送携带有部件地址、写入起始地址、待写入数据和写入长度的写入命令,以使所述部件地址所指定的目标板卡从所述写入起始地址开始按照所述读取长度在所述目标板卡上的存储介质中写入所述待写入数据,并反馈针对所述写入命令的应答命令。
6.一种状态监控方法,其特征在于,应用于服务器中的板卡,包括:
接收管理控制器发送的读取命令,其中,所述读取命令中携带有部件地址、读取起始地址和读取长度的读取命令;
若所述部件地址确定所述读取命令为自身地址,则从所述读取起始地址开始按照所述读取长度读取对应的存储介质;
向所述管理控制器发送针对所述读取命令的应答命令,其中,所述应答命令中携带有该存储介质中存储的监控信息。
7.根据权利要求6所述的方法,其特征在于,还包括:
接收管理控制器发送的写入命令,其中,所述写入命令中携带有部件地址、写入起始地址、待写入数据和写入长度的写入命令;
若所述部件地址确定所述写入命令为自身地址,则从所述写入起始地址开始按照所述写入长度将所述待写入数据写入对应的存储介质;
向所述管理控制器发送针对所述写入命令的应答命令。
8.一种状态监控装置,其特征在于,应用于服务器中的管理控制器,包括:
第一发送单元,用于通过所述管理控制器与所述服务器中的板卡连接的总线发送携带有部件地址、读取起始地址和读取长度的读取命令,以使所述部件地址所指定的目标板卡从所述读取起始地址开始按照所述读取长度对所述目标板卡上的存储介质中进行读取,并反馈针对所述读取命令的应答命令;
第一接收单元,用于接收所述应答命令;
存储单元,用于存储所述应答命令中所携带的监控信息。
9.根据权利要求8所述的装置,其特征在于,所述第一发送单元,包括:
基础信息读取模块,用于在所述服务器上电后,通过所述管理控制器与所述服务器中的板卡连接的总线发送第一读取命令,其中,所述第一读取命令中携带有对应于目标板卡的部件地址、第一读取起始地址和第一读取长度,所述第一读取起始地址用于指向所述目标板卡中所存储的基础信息;
所述第一接收单元,包括:
基础信息接收模块,用于接收所述目标板卡针对所述第一读取命令所反馈的第一应答命令,其中,所述监控信息包括所述第一应答命令中携带的所述目标板卡的基础信息;
所述存储单元,具体用于存储所述基础信息。
10.根据权利要求9所述的装置,其特征在于,所述第一发送单元,还包括:
参数读取模块,用于在存储所述基础信息之后,根据所述存储的基础信息,通过所述管理控制器与所述服务器中的板卡连接的总线发送第二读取命令,其中,所述第二读取命令中携带有对应于目标板卡的部件地址、第二读取起始地址和第二读取长度,所述第二读取起始地址用于指向所述目标板卡中所存储的硬件参数信息;
所述第一接收单元,还包括:
参数接收模块,用于接收所述目标板卡针对所述第二读取命令所反馈的第二应答命令,其中,所述监控信息还包括所述第二应答命令中携带的所述目标板卡的硬件参数信息;
所述存储单元,还用于存储所述硬件参数信息。
11.根据权利要求8所述的装置,其特征在于,所述第一接收单元,还包括:
状态读取模块,用于通过所述管理控制器与所述服务器中的板卡连接的总线发送第三读取命令,其中,所述第三读取命令中携带有对应于目标板卡的部件地址、第三读取起始地址和第三读取长度,所述第三读取起始地址用于指向所述目标板卡中所存储的器件状态信息;
所述第一接收单元,包括:
状态接收模块,用于接收所述目标板卡针对所述第三读取命令所反馈的第三应答命令,其中,所述监控信息包括所述第三应答命令中携带的所述目标板卡的器件状态信息;
所述存储单元,还用于存储所述器件状态信息。
12.根据权利要求8所述的装置,其特征在于,还包括:
写入单元,用于通过所述管理控制器与所述服务器中的板卡连接的总线发送携带有部件地址、写入起始地址、待写入数据和写入长度的写入命令,以使所述部件地址所指定的目标板卡从所述写入起始地址开始按照所述读取长度在所述目标板卡上的存储介质中写入所述待写入数据,并反馈针对所述写入命令的应答命令。
13.一种状态监控装置,其特征在于,应用于服务器中的板卡,包括:
第二接收单元,用于接收管理控制器发送的读取命令,其中,所述读取命令中携带有部件地址、读取起始地址和读取长度的读取命令;
获取单元,用于若所述部件地址确定所述读取命令为自身地址,则从所述读取起始地址开始按照所述读取长度读取存储介质;
第二发送单元,用于向所述管理控制器发送针对所述读取命令的应答命令,其中,所述应答命令中携带有该存储介质中存储的监控信息。
14.根据权利要求13所述的装置,其特征在于,还包括:写入单元;
所述第二接收单元,还用于接收管理控制器发送的写入命令,其中,所述写入命令中携带有部件地址、写入起始地址、待写入数据和写入长度的写入命令;
所述写入单元,用于若所述部件地址确定所述写入命令为自身地址,则从所述写入起始地址开始按照所述写入长度将所述数据写入对应的存储介质;
所述第二发送单元,还用于向所述管理控制器发送针对所述写入命令的应答命令。
CN202110276634.XA 2021-03-15 2021-03-15 一种状态监控方法及装置 Active CN113190395B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110276634.XA CN113190395B (zh) 2021-03-15 2021-03-15 一种状态监控方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110276634.XA CN113190395B (zh) 2021-03-15 2021-03-15 一种状态监控方法及装置

Publications (2)

Publication Number Publication Date
CN113190395A true CN113190395A (zh) 2021-07-30
CN113190395B CN113190395B (zh) 2023-08-18

Family

ID=76973336

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110276634.XA Active CN113190395B (zh) 2021-03-15 2021-03-15 一种状态监控方法及装置

Country Status (1)

Country Link
CN (1) CN113190395B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113824626A (zh) * 2021-09-24 2021-12-21 广东科瑞德电气科技有限公司 一种防止信息交互丢失的通讯管理方法
CN115766889A (zh) * 2022-09-28 2023-03-07 成都赛力斯科技有限公司 一种数据帧结构和数据通信方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USH1444H (en) * 1992-11-30 1995-06-06 United States Of America VME slave tester
WO2001079962A2 (en) * 2000-04-13 2001-10-25 Stratus Technologies International, S.A.R.L. Fault-tolerant maintenance bus, protocol, and method for using the same
JP2009199400A (ja) * 2008-02-22 2009-09-03 Canon Inc 管理サーバ、データ処理方法、プログラム
US20130060996A1 (en) * 2011-09-01 2013-03-07 Dell Products L.P. System and Method for Controller Independent Faulty Memory Replacement
CN103853678A (zh) * 2012-12-06 2014-06-11 鸿富锦精密工业(深圳)有限公司 板卡管理装置及使用其的板卡管理系统和控制卡
TW201423409A (zh) * 2012-12-06 2014-06-16 Hon Hai Prec Ind Co Ltd 板卡管理裝置及使用其的板卡管理系統和控制卡
CN104156292A (zh) * 2014-08-04 2014-11-19 浪潮(北京)电子信息产业有限公司 一种服务器中板卡的管理方法和服务器
CN109117342A (zh) * 2018-08-13 2019-01-01 郑州云海信息技术有限公司 一种服务器及其硬盘健康状态监测系统
CN109471779A (zh) * 2018-11-21 2019-03-15 上海闻泰信息技术有限公司 板卡状态监控方法、微控制单元、服务器及存储介质
CN109614293A (zh) * 2018-12-13 2019-04-12 广东浪潮大数据研究有限公司 一种fpga异构加速卡的管理系统及方法
US20200034072A1 (en) * 2018-07-27 2020-01-30 Dell Products, Lp Information Handling System with Memory Flush During Shut Down
CN111031011A (zh) * 2019-11-26 2020-04-17 中科驭数(北京)科技有限公司 Tcp/ip加速器的交互方法和装置
KR20210001206A (ko) * 2019-06-27 2021-01-06 에스케이하이닉스 주식회사 컨트롤러, 메모리 시스템 및 그것의 동작 방법
CN112416841A (zh) * 2020-11-10 2021-02-26 光华临港工程应用技术研发(上海)有限公司 基于i2c总线的多机通信的实现方法及多机通信系统

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USH1444H (en) * 1992-11-30 1995-06-06 United States Of America VME slave tester
WO2001079962A2 (en) * 2000-04-13 2001-10-25 Stratus Technologies International, S.A.R.L. Fault-tolerant maintenance bus, protocol, and method for using the same
JP2009199400A (ja) * 2008-02-22 2009-09-03 Canon Inc 管理サーバ、データ処理方法、プログラム
US20130060996A1 (en) * 2011-09-01 2013-03-07 Dell Products L.P. System and Method for Controller Independent Faulty Memory Replacement
CN103853678A (zh) * 2012-12-06 2014-06-11 鸿富锦精密工业(深圳)有限公司 板卡管理装置及使用其的板卡管理系统和控制卡
TW201423409A (zh) * 2012-12-06 2014-06-16 Hon Hai Prec Ind Co Ltd 板卡管理裝置及使用其的板卡管理系統和控制卡
CN104156292A (zh) * 2014-08-04 2014-11-19 浪潮(北京)电子信息产业有限公司 一种服务器中板卡的管理方法和服务器
US20200034072A1 (en) * 2018-07-27 2020-01-30 Dell Products, Lp Information Handling System with Memory Flush During Shut Down
CN109117342A (zh) * 2018-08-13 2019-01-01 郑州云海信息技术有限公司 一种服务器及其硬盘健康状态监测系统
CN109471779A (zh) * 2018-11-21 2019-03-15 上海闻泰信息技术有限公司 板卡状态监控方法、微控制单元、服务器及存储介质
CN109614293A (zh) * 2018-12-13 2019-04-12 广东浪潮大数据研究有限公司 一种fpga异构加速卡的管理系统及方法
KR20210001206A (ko) * 2019-06-27 2021-01-06 에스케이하이닉스 주식회사 컨트롤러, 메모리 시스템 및 그것의 동작 방법
CN111031011A (zh) * 2019-11-26 2020-04-17 中科驭数(北京)科技有限公司 Tcp/ip加速器的交互方法和装置
CN112416841A (zh) * 2020-11-10 2021-02-26 光华临港工程应用技术研发(上海)有限公司 基于i2c总线的多机通信的实现方法及多机通信系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
罗运虎;章宁;周涛;周勇军;黄卫华;阚艳;: "1553B总线监视器中数据读取与解析方法研究", 测控技术, no. 10 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113824626A (zh) * 2021-09-24 2021-12-21 广东科瑞德电气科技有限公司 一种防止信息交互丢失的通讯管理方法
CN113824626B (zh) * 2021-09-24 2023-12-22 广东科瑞德电气科技有限公司 一种防止信息交互丢失的通讯管理方法
CN115766889A (zh) * 2022-09-28 2023-03-07 成都赛力斯科技有限公司 一种数据帧结构和数据通信方法

Also Published As

Publication number Publication date
CN113190395B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
US20070055793A1 (en) System of managing peripheral interfaces in IPMI architecture and method thereof
CN113190395B (zh) 一种状态监控方法及装置
CN107273245B (zh) 运算装置与运作方法
KR20040060965A (ko) 매입형 마이크로컨트롤러를 가진 마이크로컴퓨터 브리지아키텍처
CN114003538B (zh) 一种智能网卡的识别方法及智能网卡
CN114116378B (zh) 获取PCIe设备温度的方法、系统、终端及存储介质
WO2019105335A1 (zh) 存储设备及存储设备的元件管理方法
CN110245048A (zh) 一种机箱智能管理系统和管理方法
CN116701285A (zh) 远程访问控制装置、方法、设备及计算机可读介质
CN112667483A (zh) 用于服务器主板的内存信息读取装置、方法及服务器
CN116627472A (zh) 高速外围组件设备的固件程序升级方法及服务器
CN116539992A (zh) 存储设备在位稳定状态检测装置、方法、逻辑模块及介质
CN113900718B (zh) 一种bmc与bios资产信息的解耦方法、系统及装置
CN115102937A (zh) 一种服务器电源自适应通讯方法、设备及介质
CN114564327A (zh) 一种基于smbus总线的服务器多卡控制系统
CN108874595A (zh) 一种hba卡重置方法、系统及hba卡和存储介质
CN114253573A (zh) PCIe设备固件批量升级方法、系统、终端及存储介质
KR100814436B1 (ko) 웹 기반 모니터링 모듈, 이를 포함하는 하드웨어 시스템,그리고 웹 기반 모니터링 모듈의 모니터링 방법
CN113010303A (zh) 一种处理器间的数据交互方法、装置以及服务器
CN101562007A (zh) 可自动更新韧件的显示控制装置及其更新方法
CN112579507A (zh) 宿主机与bmc通信的方法、bios、操作系统、bmc和服务器
US11966309B2 (en) Saturation of multiple PCIe slots in a server by multiple ports in a single test card
CN116644771A (zh) 一种数据中心机柜u位管理装置及方法
US20240070092A1 (en) Input/output expansion emulation with a programmable device
CN117608933A (zh) 服务器PCIe卡机箱丝印识别方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant