CN113626275B - 资讯的建立方法及分析方法 - Google Patents

资讯的建立方法及分析方法 Download PDF

Info

Publication number
CN113626275B
CN113626275B CN202010376791.3A CN202010376791A CN113626275B CN 113626275 B CN113626275 B CN 113626275B CN 202010376791 A CN202010376791 A CN 202010376791A CN 113626275 B CN113626275 B CN 113626275B
Authority
CN
China
Prior art keywords
firmware
hardware
category
management controller
baseboard management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010376791.3A
Other languages
English (en)
Other versions
CN113626275A (zh
Inventor
王正皇
梁进
徐硕宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jabil Circuit Shanghai Ltd
Original Assignee
Jabil Circuit Shanghai Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jabil Circuit Shanghai Ltd filed Critical Jabil Circuit Shanghai Ltd
Priority to CN202010376791.3A priority Critical patent/CN113626275B/zh
Priority to US17/307,539 priority patent/US20210349775A1/en
Publication of CN113626275A publication Critical patent/CN113626275A/zh
Application granted granted Critical
Publication of CN113626275B publication Critical patent/CN113626275B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0775Content or structure details of the error report, e.g. specific table structure, specific error fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0781Error filtering or prioritizing based on a policy defined by the user or on a policy defined by a hardware/software module, e.g. according to a severity level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/4401Bootstrapping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一种资讯的建立方法及分析方法,资讯的建立方法包含:通过基板管理控制器接收并筛选来自多个硬件及多个固件分别在正常执行过程中及异常状态发生时的多个配置、多个状态、及多个执行记录;通过所述基板管理控制器将筛选结果分类为硬件类别及固件类别,并分别储存为正常版错误记录收集资讯及异常版错误记录收集资讯。一种资讯的分析方法包含所述建立方法,并还包含:通过电脑主机读取所述正常版错误记录收集资讯及所述异常版错误记录收集资讯,并作比对以标记数值相异处。

Description

资讯的建立方法及分析方法
技术领域
本发明涉及一种资讯的建立方法及分析方法,特别是指一种提供快速诊断与分析异常情况的设定与状态资讯的建立方法及分析方法。
背景技术
在数据中心中,服务器包含各种硬件如中央处理器(CPU)、芯片组(Chipset)与PCI装置,及各种对应的固件(Firmware),所述服务器具有所述固件及所述硬件的配置(Configurations)及状态(Status),如固件配置、固件状态、控制设定(Control setting)暂存器、工作状态(Working status)暂存器、及错误状态(Error status)暂存器所对应的数值。随着科技的进步与发展,所述固件及所述硬件的所述配置及所述状态的复杂性正在日益增长。当异常情形,也就是错误(Error)发生时,很难使用许多不同的硬件配置来分析海量数据。例如,某些服务器安装许多存储设备,或某些服务器安装多个网络设备,或某些服务器具有许多中央处理器。当工程师要调试(Debug)错误问题时,需要检查所述固件及所述硬件的所述配置及所述状态的其中每一者,导致相当耗费时间且不具效率。因此,存有改善的空间。
发明内容
本发明的目的在于提供一种能够快速诊断与分析异常情况的资讯的建立方法及分析方法。
于是,本发明之一个观点,提供一种资讯的建立方法,适用于服务主机,所述服务主机包含多个硬件、多个固件、基板管理控制器及对应所述基板管理控制器的储存单元,其特征在于:所述资讯的建立方法包含步骤S1~S4。
于步骤S1,通过所述基板管理控制器接收所述硬件及所述固件在正常执行过程中所产生的多个状态,并根据预先设定的筛选条件,选择所述状态的其中部分者。
于步骤S2,通过所述基板管理控制器将步骤S1所选择的所述状态,分类为硬件类别及固件类别,并储存于所述储存单元。
于步骤S3,通过所述基板管理控制器接收所述硬件及所述固件在异常情况发生时所产生的所述状态,并根据所述筛选条件,选择所述状态的其中所述部分者。
于步骤S4,通过所述基板管理控制器将步骤S3所选择的所述状态,分类为所述硬件类别及所述固件类别,并储存于所述储存单元。
在一些实施方式中,其中,在步骤S1中,所述基板管理控制器还接收所述硬件及所述固件在正常执行过程中所预先设定的多个配置,及所述硬件及所述固件在正常执行过程中所产生的多个执行记录,并根据所述筛选条件,选择所述配置及所述执行记录的其中部分者。
在步骤S2中,所述基板管理控制器还将步骤S1所选择的所述配置及所述执行记录,分类为硬件类别及固件类别,并储存于所述储存单元。
在步骤S3中,所述基板管理控制器还接收所述硬件及所述固件在异常情况发生时所预先设定的所述配置,及所述硬件及所述固件在异常情况发生时所产生的所述执行记录,并根据所述筛选条件,选择所述配置及所述执行记录的其中所述部分者。
在步骤S4中,所述基板管理控制器还将步骤S3所选择的所述配置及所述执行记录,分类为所述硬件类别及所述固件类别,并储存于所述储存单元。
在一些实施方式中,其中,在步骤S1及S3中,所述配置包含所述固件的多个固件配置所对应的数值,及所述硬件的多个控制设定暂存器所对应的数值,所述状态包含所述固件的多个固件状态、所述硬件的多个工作状态暂存器、及所述硬件的多个错误状态暂存器所对应的数值,所述执行记录对应所述固件。
在一些实施方式中,其中,在步骤S2及S4中,所述基板管理控制器将步骤S1及S3所选择的所述固件配置、所述控制设定暂存器、所述固件状态、所述工作状态暂存器、所述错误状态暂存器、及所述执行记录属于所述硬件或所述固件的其中哪一者,各自分开且对应储存。
在一些实施方式中,其中,在步骤S2及S4中,所述硬件类别包括芯片组子类别及中央处理器子类别,所述固件类别包括统一可延伸固件接口(UEFI)子类别及基板管理控制器子类别,所述基板管理控制器进一步分类为所述芯片组子类别、所述中央处理器子类别、所述统一可延伸固件接口子类别、及所述基板管理控制器子类别,以储存于所述储存单元。
于是,本发明之另一个观点,提供一种资讯的分析方法,适用于服务主机及电脑主机,所述服务主机包含多个硬件、多个固件、基板管理控制器及对应所述基板管理控制器的储存单元,其特征在于:所述资讯的分析方法包含步骤S1~S5。
于步骤S1,通过所述基板管理控制器接收所述硬件及所述固件在正常执行过程中所产生的多个状态,并根据预先设定的筛选条件,选择所述状态的其中部分者。
于步骤S2,通过所述基板管理控制器将步骤S1所选择的所述状态,分类为硬件类别及固件类别,并储存于所述储存单元而成为正常版错误记录收集(ELC)资讯。
于步骤S3,通过所述基板管理控制器接收所述硬件及所述固件在异常情况发生时所产生的所述状态,并根据所述筛选条件,选择所述状态的其中所述部分者。
于步骤S4,通过所述基板管理控制器将步骤S3所选择的所述状态,分类为所述硬件类别及所述固件类别,并储存于所述储存单元而成为异常版错误记录收集资讯。
于步骤S5,通过所述电脑主机读取所述储存单元的所述正常版错误记录收集资讯及所述异常版错误记录收集资讯,并作比对以标记所述正常版错误记录收集资讯及所述异常版错误记录收集资讯的数值相异处。
在一些实施方式中,其中,在步骤S1中,所述基板管理控制器还接收所述硬件及所述固件在正常执行过程中所预先设定的多个配置,及所述硬件及所述固件在正常执行过程中所产生的多个执行记录,并根据所述筛选条件,选择所述配置及所述执行记录的其中部分者。
在步骤S2中,所述基板管理控制器还将步骤S1所选择的所述配置及所述执行记录,分类为硬件类别及固件类别,并储存于所述储存单元而成为正常版错误记录收集(ELC)资讯。
在步骤S3中,所述基板管理控制器还接收所述硬件及所述固件在异常情况发生时所预先设定的所述配置,及所述硬件及所述固件在异常情况发生时所产生的所述执行记录,并根据所述筛选条件,选择所述配置及所述执行记录的其中所述部分者。
在步骤S4中,所述基板管理控制器还将步骤S3所选择的所述配置及所述执行记录,分类为所述硬件类别及所述固件类别,并储存于所述储存单元而成为异常版错误记录收集资讯。
在一些实施方式中,其中,在步骤S1及S3中,所述配置包含所述固件的多个固件配置所对应的数值,及所述硬件的多个控制设定暂存器所对应的数值,所述状态包含所述固件的多个固件状态、所述硬件的多个工作状态暂存器、及所述硬件的多个错误状态暂存器所对应的数值,所述执行记录对应所述固件。
在另一些实施方式中,其中,在步骤S2及S4中,所述基板管理控制器将步骤S1及S3所选择的所述固件配置、所述控制设定暂存器、所述固件状态、所述工作状态暂存器、所述错误状态暂存器、及所述执行记录属于所述硬件或所述固件的其中哪一者,各自分开且对应储存。
在另一些实施方式中,其中,在步骤S2及S4中,所述硬件类别包括芯片组子类别及中央处理器子类别,所述固件类别包括统一可延伸固件接口(UEFI)子类别及基板管理控制器子类别,所述基板管理控制器进一步分类为所述芯片组子类别、所述中央处理器子类别、所述统一可延伸固件接口子类别、及所述基板管理控制器子类别,以储存于所述储存单元。
于是,本发明之另一个观点,提供一种资讯的分析方法,包含步骤S1~S3。
于步骤S1,通过服务主机的基板管理控制器将所述服务主机的硬件及固件在正常执行过程中的正常版错误记录收集(ELC)资讯按照硬件类别及固件类别分开储存于所述服务主机的储存单元,所述错误记录收集资讯包含配置、状态、及执行记录其中至少一种;
于步骤S2,通过所述基板管理控制器将所述硬件及固件在异常情况发生时的异常版错误记录收集资讯按照所述硬件类别及固件类别分开储存于所述储存单元;及
于步骤S3,通过所述服务主机或远程电脑主机读取所述储存单元的所述正常版错误记录收集资讯及所述异常版错误记录收集资讯,并作比对以获得所述正常版错误记录收集资讯及所述异常版错误记录收集资讯的相异处。
于是,本发明之另一个观点,提供一种资讯的分析方法,包含步骤S1~S3。
于步骤S1,将所述服务主机的硬件及固件在正常执行过程中的正常版状态按照硬件类别及固件类别分开储存于所述服务主机的储存单元,所述硬件类别及固件类别分别包含多种硬件及固件;
于步骤S2,将所述硬件及固件在异常情况发生时的异常版状态按照所述硬件类别及固件类别分开储存于所述储存单元;及
于步骤S3,通过所述服务主机或远程电脑主机读取所述储存单元的所述正常版状态及所述异常版状态,并作比对以获得所述正常版状态及所述异常版状态的相异处。
本发明的有益的效果在于:通过所述基板管理控制器接收并筛选来自所述硬件及所述固件分别在正常执行过程中及异常状态发生时的所述配置、所述状态、及所述执行记录,再加以分类为所述硬件类别及所述固件类别,并分别储存为所述正常版错误记录收集资讯及所述异常版错误记录收集资讯。使得工程师要调试错误问题时,能够更快速地作异常情况的诊断与分析。
附图说明
图1是一个示意图,说明本发明资讯的建立方法及分析方法所适用的一个服务主机及一个电脑主机;
图2是一个流程图,说明本发明资讯的建立方法的一个实施例;
图3是一个流程图,说明本发明资讯的分析方法的一个实施例;及
图4是一个示意图,说明所述实施例所储存的资讯的分类效果。
具体实施方式
下面结合附图及实施例对本发明进行详细说明。
在本发明被详细描述的前,应当注意在以下的说明内容中,类似的元件是以相同的编号来表示。
参阅图1与图2,本发明资讯的建立方法的一个实施例,适用于一个服务主机1及一个电脑主机2,所述服务主机1包含一个基板管理控制器(Baseboard managementcontroller,BMC)11、对应所述基板管理控制器11的一个储存单元12、多个硬件、及多个固件。所述服务主机1例如是设置于数据中心的多个服务器(Server)的其中任一个。所述储存单元12例如是快闪存储器(Flash)或其他种类的非挥发性存储器(Non-Volatile Memory),并电连接所述基板管理控制器11,以提供所述基板管理控制器11存取使用。
所述硬件例如是一个芯片组(Chipset)、电连接所述芯片组的至少一个SATA装置、至少一个USB装置、一个实时时钟(Real Time Clock,RTC)、至少一个LPC(Low Pin Count)汇流排装置、至少一个eSPI(Enhanced Serial Peripheral Interface)装置、至少一个PCIe装置、至少一个网路控制器、至少一个SMBus(Host System Management BusController)装置、至少一个电源管理控制器或至少一个HECI(Host System ManagementBus Controller)装置、一个中央处理器(CPU)、电连接所述中央处理器的至少一个DMI(Direct Media Interface)装置、至少一个PCIe装置、至少一个CHA(Caching and HomeAgent)装置、至少一个IMC(Integrated Memory Controller)控制器、至少一个PCU(PowerControl Unit)装置或至少一个MSR(Model Specific Registers)装置。所述固件例如是统一可延伸固件接口(Unified Extensible Firmware Interface,UEFI)固件及基板管理控制器固件。
所述资讯的建立方法包含步骤S1~S4。
于步骤S1,通过所述基板管理控制器11接收所述硬件及所述固件在正常执行过程中所预先设定的多个配置(Configurations)及所产生的多个状态(Status)及多个执行记录(Log),并根据预先设定的筛选条件,选择所述配置、所述状态、及所述执行记录的其中部分者。
于步骤S2,通过所述基板管理控制器11将步骤S1所选择的所述配置、所述状态、及所述执行记录,分类为一个硬件类别及一个固件类别,且再分类为属于所述硬件类别的一个芯片组子类别及一个中央处理器子类别,及属于所述固件类别的一个统一可延伸固件接口(UEFI)子类别及一个基板管理控制器子类别,并储存于所述储存单元12而成为一个正常版错误记录收集(Error log collection,ELC)资讯。
于步骤S3,通过所述基板管理控制器11接收所述硬件及所述固件在异常情况发生时预先设定的所述配置、所述状态、及所述执行记录,并根据所述筛选条件,选择所述配置、所述状态、及所述执行记录的其中所述部分者。也就是说,在步骤S3所选择的对象与步骤S1相同。
其中,在步骤S1及S3中,所述配置包含所述固件的多个固件配置(Configurations)所对应的数值,及所述硬件的多个控制设定(Control setting)暂存器所对应的数值。所述状态包含所述固件的多个固件状态(Status)、所述硬件的多个工作状态(Working status)暂存器、及所述硬件的多个错误状态(Error status)暂存器所对应的数值。所述执行记录对应所述固件,并例如是开机记录。
于步骤S4,通过所述基板管理控制器11将步骤S3所选择的所述配置、所述状态、及所述执行记录,分类为所述硬件类别及所述固件类别,且再分类为属于所述硬件类别的所述芯片组子类别及所述中央处理器子类别,及属于所述固件类别的所述统一可延伸固件接口(UEFI)子类别及所述基板管理控制器子类别,并储存于所述储存单元12而成为一个异常版错误记录收集资讯。
其中,在步骤S2及S4中,所述基板管理控制器11将步骤S1及S3所选择的所述固件配置、所述控制设定暂存器、所述固件状态、所述工作状态暂存器、所述错误状态暂存器、及所述执行记录属于所述硬件或所述固件的其中哪一者,各自分开且对应储存。
再参阅图4,图4示例性说明所述储存单元12所储存的所述正常版错误记录收集资讯或所述异常版错误记录收集资讯的分类效果,并举例所述筛选条件所选择的所述配置、所述状态、及所述执行记录。
举例来说,图4中属于所述芯片组子类别的第i控制设定暂存器、第i工作状态暂存器、及第i错误状态暂存器是对应前述的所述SATA装置、所述USB装置、所述实时时钟(RTC)、所述LPC汇流排装置、所述eSPI装置、所述PCIe装置、所述网路控制器、所述SMBus装置、所述个电源管理控制器或所述HECI装置的其中一个,i=1、2、3…。
所述SATA装置的所述第i控制设定暂存器例如是Port Control的Port x EnableBit、Global HBA Control的AHCI Enable(AE)与HBA Reset(HR)。所述USB装置的所述第i控制设定暂存器例如是Memory Base Address(MBAR)的Base Address(BA)、Prefetchable、Type与Resource Type Indicator(RTE)、USB Command(USBCMD)的Enable Wrap Event(EWE)、Host Controller Reset(HCRST)与Run/Stop(RS)。
所述SATA装置的所述第i工作状态暂存器例如是Port Status的Port x PresentBit、HBA Capabilities的Supports Staggered Spin-up与Interface Speed Support(ISS)。所述USB装置的所述第i工作状态暂存器例如是Power Management Control/Status(PM_CS)的PME_Status与PowerStste、USB Status(USBSTS)的Port Change Detect(PCD)与Event Interrupt(EINT)。
所述SATA装置的所述第i错误状态暂存器例如是Device Status(STS)的DetectedParity Error(DPE)与Signaled System Error(SSE)、Port x Serial ATA Error的Diagnostics(DIAG)与Error(ERR)。所述USB装置的所述第i错误状态暂存器例如是XHCSystem Bus Configuration 1(XHCC1)的Master/Target Abort SERR(RMTASERR)与Unsupported Request Detected(URD)、USB Status(USBSTS)的Host Controller Error(HCE)与Save/Restore Error(SRE)。
举例来说,图4中属于所述中央处理器子类别的第i控制设定暂存器、第i工作状态暂存器、及第i错误状态暂存器是对应前述的所述DMI装置、所述PCIe装置、所述CHA装置、所述IMC控制器、所述PCU装置或所述MSR装置的其中一个。
所述DMI装置的所述第i控制设定暂存器例如是DMI Control Register(DMICTRL)的AUTO_COMPLETE_PM与ABORT_INBOUND_REQUESTS、DMI VCx Resource Control的VirtualChannel x Enable。所述PCIe装置的所述第i控制设定暂存器例如是I/O Base(IOBASE)的I/O Base Address Bits(IOBA)、Device Control(DEVCTL)的Maximum Payload Size(MPS)、Fatal Error Reporting Enable(FERE)、Non-Fatal Error Reporting Enable(NFERE)与Correctable Error Reporting Enable(CERE)。
所述DMI装置的所述第i工作状态暂存器例如是DMI Status Register(DMISTS)的RECEIVED_CPU_RESET_DONE_ACK、DMI VCx Resource Status的VCxNP(process of FlowControl initialization)。所述PCIe装置的所述第i工作状态暂存器例如是Memory Base(MEMBASE)的Memory Base(MB)、Slot Status(SLOTSTS)的Presence Detect State(PDS)、Command Completed(CCS)与Presence Detect Changed(PDCS)。
所述DMI装置的所述第i错误状态暂存器例如是Root Port Error Status的FATAL_ERROR_RECEIVED、NON_FATAL_ERROR_RECEIVED与CORRECTABLE_ERROR_RECEIVED。所述PCIe装置的所述第i错误状态暂存器例如是Root Port Error Status的FATAL_ERROR_RECEIVED、NON_FATAL_ERROR_RECEIVED与CORRECTABLE_ERROR_RECEIVED、Device Status(DEVSTS)的Correctable Error Detected(CED)、Non-Fatal Error Detected(NFED)与Fatal Error Detected(FED)。
举例来说,图4中属于所述统一可延伸固件接口(UEFI)子类别的第i固件配置及第i固件状态例如是对应所述统一可延伸固件接口(UEFI)固件的SMBIOS(System ManagementBIOS)、System Configuration(Variable)、System Reset Log、或Inventory的其中一个。
所述第i固件配置例如是SMBIOS的Typex Information、System Configuration的Each system configuration variable、PCH、Memory与PCIE、System Reset Log的ResetType and timestamp、Inventory的Memory slot mapout、Cpu core disable、Pcie slotdisbled与Storage enable。所述第i固件状态例如是Inventory的Memory topological、Cpu information、Pcie topological、Storage topological与Network devicetopological。所述执行记录例如是SMBIOS的Smbios Table log、System Configuration的Debug Message、Inventory的Debug Message。
举例来说,图4中属于所述基板管理控制器子类别的第i固件配置及第i固件状态例如是SDR(Sensor Data Record)、Temperature、LED Status、或Power Information的其中一个。
所述第i固件配置例如是Temperature的Temperature limit与alarm setting。所述第i固件状态例如是SDR的Fan、CPU、DIMM与PSU、Temperature的CPU、PCH、Fan RPM与DIMM、LED Status的Error or warning LED Status、Power Information的P12V_AUX、P3V3与P1V5。所述执行记录例如是System Error Log(SEL)、BMC System log、BMC DebugMessage。
通过所述储存单元12所储存的所述正常版错误记录收集资讯及所述异常版错误记录收集资讯,使得当所述服务主机1在异常情况发生后,工程师要调试错误问题时,能够通过所述电脑主机2而更快速地据以作异常情况的诊断与分析,进而能改善现有技术的耗时与效率不佳的问题。另外要特别补充说明的是:在本实施例中,所述基板管理控制器11是接收、选择、分类、并储存所述配置、所述状态、及所述执行记录。而在其他的实施例中,所述基板管理控制器11也可以是接收、选择、分类、并储存所述配置、所述状态、及所述执行记录之其中至少一种。
参阅图1与图3,本发明资讯的分析方法的一个实施例,包含步骤S1~S6,其中,步骤S1~S4与所述资讯的建立方法的步骤S1~S4相同。
于步骤S5,通过所述电脑主机2读取所述储存单元12的所述正常版错误记录收集资讯及所述异常版错误记录收集资讯,并作比对以标记所述正常版错误记录收集资讯及所述异常版错误记录收集资讯的数值相异处。另外要特别强调的是:在其他的实施例中,当所述服务主机1仍然能够运作时,也可以是通过所述服务主机1读取所述储存单元12的所述正常版错误记录收集资讯及所述异常版错误记录收集资讯,并作比对及标记。
于步骤S6,通过所述电脑主机2的一个显示单元(如荧幕)显示所述正常版错误记录收集资讯及所述异常版错误记录收集资讯,并还显示在所述数值相异处所作的标记。
综上所述,通过所述基板管理控制器11接收并筛选来自所述硬件及所述固件分别在正常执行过程中及异常状态发生时的所述配置、所述状态、及所述执行记录,再加以分类为所述硬件类别及所述固件类别,甚至在细分为所述芯片组子类别、所述中央处理器子类别、所述统一可延伸固件接口(UEFI)子类别、及所述基板管理控制器子类别,并分别储存为所述正常版错误记录收集资讯及所述异常版错误记录收集资讯。使得工程师要调试错误问题时,能够更快速地作异常情况的诊断与分析,所以确实能达成本发明的目的。
惟以上所述者,仅为本发明的实施例而已,当不能以此限定本发明实施的范围,即大凡依本发明权利要求书及专利说明书内容所作的简单的等效变化与修饰,皆仍属本发明专利涵盖的范围内。

Claims (11)

1.一种资讯的建立方法,适用于服务主机,所述服务主机包含多个硬件、多个固件、基板管理控制器及对应所述基板管理控制器的储存单元,其特征在于,所述资讯的建立方法包含:
(a)通过所述基板管理控制器接收所述硬件及所述固件在正常执行过程中所预先设定的多个配置,并还接收所述硬件及所述固件在正常执行过程中所产生的多个状态及多个执行记录,并根据预先设定的筛选条件,选择所述配置、所述状态、及所述执行记录的其中部分者;
(b)通过所述基板管理控制器将步骤(a)所选择的所述配置、所述状态、及所述执行记录,分类为硬件类别及固件类别,并储存于所述储存单元;
(c)通过所述基板管理控制器接收所述硬件及所述固件在异常情况发生时所预先设定的所述配置,并还接收所述硬件及所述固件在异常情况发生时所产生的所述状态及所述执行记录,并根据所述筛选条件,选择所述配置、所述状态、及所述执行记录的其中所述部分者;及
(d)通过所述基板管理控制器将步骤(c)所选择的所述配置、所述状态、及所述执行记录,分类为所述硬件类别及所述固件类别,并储存于所述储存单元。
2.根据权利要求1所述的资讯的建立方法,其特征在于,在步骤(a)及(c)中,所述配置包含所述固件的多个固件配置所对应的数值,及所述硬件的多个控制设定暂存器所对应的数值,所述状态包含所述固件的多个固件状态、所述硬件的多个工作状态暂存器、及所述硬件的多个错误状态暂存器所对应的数值,所述执行记录对应所述固件。
3.根据权利要求2所述的资讯的建立方法,其特征在于,在步骤(b)及(d)中,所述基板管理控制器将步骤(a)及(c)所选择的所述固件配置、所述控制设定暂存器、所述固件状态、所述工作状态暂存器、所述错误状态暂存器、及所述执行记录属于所述硬件或所述固件的其中哪一者,各自分开且对应储存。
4.根据权利要求3所述的资讯的建立方法,其特征在于,在步骤(b)及(d)中,所述硬件类别包括芯片组子类别及中央处理器子类别,所述固件类别包括统一可延伸固件接口子类别及基板管理控制器子类别,所述基板管理控制器进一步分类为所述芯片组子类别、所述中央处理器子类别、所述统一可延伸固件接口子类别、及所述基板管理控制器子类别,以储存于所述储存单元。
5.一种资讯的分析方法,适用于服务主机及电脑主机,所述服务主机包含多个硬件、多个固件、基板管理控制器及对应所述基板管理控制器的储存单元,其特征在于,所述资讯的分析方法包含:
(a)通过所述基板管理控制器接收所述硬件及所述固件在正常执行过程中所产生的多个状态,并根据预先设定的筛选条件,选择所述状态的其中部分者;
(b)通过所述基板管理控制器将步骤(a)所选择的所述状态,分类为硬件类别及固件类别,并储存于所述储存单元而成为正常版错误记录收集资讯;
(c)通过所述基板管理控制器接收所述硬件及所述固件在异常情况发生时所产生的所述状态,并根据所述筛选条件,选择所述状态的其中所述部分者;
(d)通过所述基板管理控制器将步骤(c)所选择的所述状态,分类为所述硬件类别及所述固件类别,并储存于所述储存单元而成为异常版错误记录收集资讯;及
(e)通过所述电脑主机读取所述储存单元的所述正常版错误记录收集资讯及所述异常版错误记录收集资讯,并作比对以标记所述正常版错误记录收集资讯及所述异常版错误记录收集资讯的数值相异处。
6.根据权利要求5所述的资讯的分析方法,其特征在于,
在步骤(a)中,所述基板管理控制器还接收所述硬件及所述固件在正常执行过程中所预先设定的多个配置,及所述硬件及所述固件在正常执行过程中所产生的多个执行记录,并根据所述筛选条件,选择所述配置及所述执行记录的其中部分者;
在步骤(b)中,所述基板管理控制器还将步骤(a)所选择的所述配置及所述执行记录,分类为硬件类别及固件类别,并储存于所述储存单元而成为正常版错误记录收集资讯;
在步骤(c)中,所述基板管理控制器还接收所述硬件及所述固件在异常情况发生时所预先设定的所述配置,及所述硬件及所述固件在异常情况发生时所产生的所述执行记录,并根据所述筛选条件,选择所述配置及所述执行记录的其中所述部分者;及
在步骤(d)中,所述基板管理控制器还将步骤(c)所选择的所述配置及所述执行记录,分类为所述硬件类别及所述固件类别,并储存于所述储存单元而成为异常版错误记录收集资讯。
7.根据权利要求6所述的资讯的分析方法,其特征在于,在步骤(a)及(c)中,所述配置包含所述固件的多个固件配置所对应的数值,及所述硬件的多个控制设定暂存器所对应的数值,所述状态包含所述固件的多个固件状态、所述硬件的多个工作状态暂存器、及所述硬件的多个错误状态暂存器所对应的数值,所述执行记录对应所述固件。
8.根据权利要求7所述的资讯的分析方法,其特征在于,在步骤(b)及(d)中,所述基板管理控制器将步骤(a)及(c)所选择的所述固件配置、所述控制设定暂存器、所述固件状态、所述工作状态暂存器、所述错误状态暂存器、及所述执行记录属于所述硬件或所述固件的其中哪一者,各自分开且对应储存。
9.根据权利要求8所述的资讯的分析方法,其特征在于,在步骤(b)及(d)中,所述硬件类别包括芯片组子类别及中央处理器子类别,所述固件类别包括统一可延伸固件接口子类别及基板管理控制器子类别,所述基板管理控制器进一步分类为所述芯片组子类别、所述中央处理器子类别、所述统一可延伸固件接口子类别、及所述基板管理控制器子类别,以储存于所述储存单元。
10.一种资讯的分析方法,其特征在于,所述资讯的分析方法包含:
(a)通过服务主机的基板管理控制器将所述服务主机的硬件及固件在正常执行过程中的正常版错误记录收集资讯按照硬件类别及固件类别分开储存于所述服务主机的储存单元,所述错误记录收集资讯包含配置、状态、及执行记录其中至少一种;
(b)通过所述基板管理控制器将所述硬件及固件在异常情况发生时的异常版错误记录收集资讯按照所述硬件类别及固件类别分开储存于所述储存单元;及
(c)通过所述服务主机或远程电脑主机读取所述储存单元的所述正常版错误记录收集资讯及所述异常版错误记录收集资讯,并作比对以获得所述正常版错误记录收集资讯及所述异常版错误记录收集资讯的相异处。
11.一种资讯的分析方法,其特征在于,所述资讯的分析方法包含:
(a)将服务主机的硬件及固件在正常执行过程中的正常版状态按照硬件类别及固件类别分开储存于所述服务主机的储存单元,所述硬件类别及固件类别分别包含多种硬件及固件;
(b)将所述硬件及固件在异常情况发生时的异常版状态按照所述硬件类别及固件类别分开储存于所述储存单元;及
(c)通过所述服务主机或远程电脑主机读取所述储存单元的所述正常版状态及所述异常版状态,并作比对以获得所述正常版状态及所述异常版状态的相异处。
CN202010376791.3A 2020-05-07 2020-05-07 资讯的建立方法及分析方法 Active CN113626275B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010376791.3A CN113626275B (zh) 2020-05-07 2020-05-07 资讯的建立方法及分析方法
US17/307,539 US20210349775A1 (en) 2020-05-07 2021-05-04 Method of data management and method of data analysis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010376791.3A CN113626275B (zh) 2020-05-07 2020-05-07 资讯的建立方法及分析方法

Publications (2)

Publication Number Publication Date
CN113626275A CN113626275A (zh) 2021-11-09
CN113626275B true CN113626275B (zh) 2024-07-16

Family

ID=78376847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010376791.3A Active CN113626275B (zh) 2020-05-07 2020-05-07 资讯的建立方法及分析方法

Country Status (2)

Country Link
US (1) US20210349775A1 (zh)
CN (1) CN113626275B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2024036041A (ja) * 2022-09-05 2024-03-15 横河電機株式会社 情報管理装置、情報管理方法および情報管理プログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05127967A (ja) * 1991-11-06 1993-05-25 Oki Electric Ind Co Ltd データベース管理システムのエラー情報記録方法
TW200825725A (en) * 2006-12-07 2008-06-16 Inventec Corp Method for collecting and managing the information of computer peripherals
TW201351133A (zh) * 2012-06-13 2013-12-16 Hon Hai Prec Ind Co Ltd 系統事件讀取方法及系統
JP5933386B2 (ja) * 2012-07-31 2016-06-08 三菱電機ビルテクノサービス株式会社 データ管理装置及びプログラム
US9954727B2 (en) * 2015-03-06 2018-04-24 Quanta Computer Inc. Automatic debug information collection
US9678682B2 (en) * 2015-10-13 2017-06-13 International Business Machines Corporation Backup storage of vital debug information
US10719604B2 (en) * 2018-01-30 2020-07-21 Hewlett Packard Enterprise Development Lp Baseboard management controller to perform security action based on digital signature comparison in response to trigger
US10761926B2 (en) * 2018-08-13 2020-09-01 Quanta Computer Inc. Server hardware fault analysis and recovery

Also Published As

Publication number Publication date
CN113626275A (zh) 2021-11-09
US20210349775A1 (en) 2021-11-11

Similar Documents

Publication Publication Date Title
CN105938450B (zh) 自动除错信息收集的方法及系统
US9122501B1 (en) System and method for managing multiple bios default configurations
US10296434B2 (en) Bus hang detection and find out
US20170220282A1 (en) Dynamic capacity expansion of raid volumes
CN105589776A (zh) 一种故障定位方法及服务器
US20170286097A1 (en) Method to prevent operating system digital product key activation failures
CN113708986B (zh) 服务器监控装置、方法及计算机可读存储介质
WO2017020614A1 (zh) 一种检测磁盘的方法及装置
CN112835516B (zh) 一种raid卡监控管理方法、系统及装置
CN111400121A (zh) 一种服务器硬盘slot定位与维护方法
CN104657243A (zh) 服务器与服务器检测方法
CN113626275B (zh) 资讯的建立方法及分析方法
TWI777628B (zh) 電腦系統及其專用崩潰轉存硬體裝置與記錄錯誤資料之方法
CN113590405A (zh) 硬盘错误的检测方法、装置、存储介质和电子装置
TWI832173B (zh) 快閃記憶體監控系統、方法及其電腦系統
CN115543665A (zh) 一种内存可靠性评估方法、装置及存储介质
TW202242655A (zh) 儲存有限狀態機之狀態資料的方法、電腦系統、及電腦程式產品
CN110109786B (zh) Smart信息测试方法、装置、计算机设备及存储介质
CN115237641A (zh) 故障检测的方法、装置、电子设备和可读介质
CN111190781A (zh) 服务器系统的测试自检方法
CN118132118B (zh) 固件升级方法及装置
JP2013196410A (ja) サーバ装置及び障害管理方法及び障害管理プログラム
TWI775360B (zh) 用以記錄電腦系統的硬體元件狀態的儲存裝置及其電腦實施方法
CN116431453A (zh) 一种通过bios进行系统故障检测的方法、装置和设备
CN118467264A (zh) 硬盘测试方法、装置、设备、存储介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant