CN113407369B - 支持主备系统管理的智能平台管理系统及实现方法 - Google Patents

支持主备系统管理的智能平台管理系统及实现方法 Download PDF

Info

Publication number
CN113407369B
CN113407369B CN202010182825.5A CN202010182825A CN113407369B CN 113407369 B CN113407369 B CN 113407369B CN 202010182825 A CN202010182825 A CN 202010182825A CN 113407369 B CN113407369 B CN 113407369B
Authority
CN
China
Prior art keywords
system management
hpi
ipmi
hardware
standby
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010182825.5A
Other languages
English (en)
Other versions
CN113407369A (zh
Inventor
乔小平
刘易成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Potevio Information Technology Co Ltd
Original Assignee
Potevio Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Potevio Information Technology Co Ltd filed Critical Potevio Information Technology Co Ltd
Priority to CN202010182825.5A priority Critical patent/CN113407369B/zh
Publication of CN113407369A publication Critical patent/CN113407369A/zh
Application granted granted Critical
Publication of CN113407369B publication Critical patent/CN113407369B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明实施例提供一种支持主备系统管理的智能平台管理系统及实现方法,系统管理软件设定主/备角色,运行于两台系统管理硬件上的HPI/IPMI Daemon程序不设定主/备角色且在系统启动时分别与ShMC建立连接;仅主系统管理软件与主系统管理硬件上的HPI/IPMI Daemon程序建立HPI连接,并对FRU进行管理,实时向备系统管理软件备份FRU的相关数据;当触发系统管理硬件发生倒换时,无需等待HPI/IPMI Daemon软件进行IPMI Discover和重新获取硬件信息,就可获取HPI事件对FRU进行监控,实现系统管理服务器秒级内倒换,满足电信级高可靠性需求。

Description

支持主备系统管理的智能平台管理系统及实现方法
技术领域
本发明涉及智能化平台管理技术领域,更具体地,涉及一种支持主备系统管理的智能平台管理系统及实现方法。
背景技术
支持ATCA(Advanced Telecom Computing Architecture,先进电信计算平台)或ATCA扩展标准的硬件平台,其智能化平台管理(IPM,Intelligent Platform Management)架构如图1所示。
其中,机框管理控制器(ShMC),为ATCA标准硬件智能平台管理系统的中心控制器;智能平台管理控制器(IPMC),为支持智能化管理的FRU(Field Replaceable Units,现场可替换单元)上的控制器;系统管理(System Manager)为逻辑单元,一般为软件单元,为应用层面进行硬件管理的子系统,是对ShMC上传感器数据、SDR(Sensor Data Record)信息、SEL(system event log,系统事件日志)信息等进行解释、呈现和处理的软件系统。系统管理接口(System Manager Interface)为ShMC与系统管理软件之间的接口,接口类型多样,其中最通用的接口类型为RMCP(Remote Management Control Protocol,远程管理控制协议),RMCP为IPMI(Intelligent Platform Management Interface,智能平台管理接口)overLAN接口。
HPI(Hardware Platform Interface,硬件平台接口)为SAF(ServiceAvailability Forum)定义的更为抽象的硬件平台管理接口,通过统一的、平台独立的可编程接口对硬件系统进行监控和控制。HPI规范中的基本概念模型Session、Domain、Resource、Entity基于IPMI规范,通过此四个基本概念定义了独立于具体平台的能力和数据格式。SAF HPI-to-ATCA Mapping规范定义了HPI对ATCA标准设备的支持。
支持ATCA标准的硬件平台产品化时,ShMC中可选的实现HPI规范提供HPI类型的系统管理接口,使得系统管理软件可以以函数式接口监视和控制硬件平台,得到了更为广泛的应用。图2为产品化的IPM架构示意图。
但并不是所有支持ATCA标准的硬件平台产品都提供图2表示的解决方案。如此,针对不同厂商的ATCA硬件,系统管理软件可能需支持的系统管理接口类型不同,如有的需支持HPI有的需支持RMCP,为系统管理软件的开发带来复杂度;另,系统管理软件接口类型不为HPI时,某些应用场景下的系统管理软件开发要比采用HPI接口类型复杂的多。
HPI开源软件OpenHPI为上述问题的解决提供了方案,以HPI/IPMI中间件方式提供HPI接口供系统管理软件调用,以RMCP接口或其它接口形式连接ShMC,实现系统管理软件接口类型为HPI而ShMC不提供HPI系统管理接口时系统管理软件与ShMC的对接。
以开源软件OpenHPI为中间件,OpenHPI插件选择IpmiDirect,实现系统管理软件仍以HPI为接口而ShMC以RMCP为系统管理接口的方案,图3为以OpenHPI为中间件的系统管理解决方案图。
上述的方案原理中,OpenHPI开源软件存在如下缺点:
支持ATCA或ATCA扩展标准的硬件平台最重要特性为高可靠性,某些应用场景下系统管理软件也有主/备需求,而OpenHPI不支持实时主/备解决方案;
OpenHPI Daemon(守护进程)通过RMCP Session(会话)从ShMC获取硬件信息创建HPI资源模型耗时长,且ShMC管理的硬件设备越多越耗时长,一般需要几十秒甚至以分钟为单位计,这一过程在称为IPMI Discover过程。IPMI Discover耗时太长导致OpenHPIDaemon无法以冷备方式解决OpenHPI Daemon的单点问题。
因为上述缺点,OpenHPI Daemon无法满足系统管理软件的高可靠性需求,通常高可靠性需求采用热备方案实现,假设OpenHPI Daemon实现1+1热备,又会存在备份节点多,实现复杂,容易出现系统内各节点数据不一致的问题。
发明内容
为了解决现有以OpenHPI为中间件的系统管理解决方案所存在的不能满足系统管理软件的高可靠性需求,且为了满足高可靠性需求采用热备方案时导致系统内各节点数据不一致的问题,本发明实施例提供一种支持主备系统管理的智能平台管理系统及实现方法。
第一方面,本发明实施例提供一种支持主备系统管理的智能平台管理系统,包括:主系统管理硬件和备系统管理硬件,其中,
所述主系统管理硬件和备系统管理硬件上均部署系统管理软件和HPI/IPMI中间件软件,所述HPI/IPMI中间件软件的核心为HPI/IPMI Daemon程序;
所述主系统管理硬件上的系统管理软件为主系统管理软件,所述备系统管理硬件上的系统管理软件为备系统管理软件,所述系统管理硬件的主/备角色依靠其上的系统管理软件的主/备角色确定;
所述HPI/IPMI Daemon程序不设定主/备角色,主系统管理硬件上的HPI/IPMIDaemon程序和备系统管理硬件上的HPI/IPMI Daemon程序在系统启动时分别与机框管理控制器ShMC建立不同的IPMI RMCP Session,所述主系统管理硬件上的HPI/IPMI Daemon程序和备系统管理硬件上的HPI/IPMI Daemon程序二者之间无通信通道;
所述主系统管理软件,与主系统管理硬件上的HPI/IPMI Daemon程序建立HPISession接收事件,并对现场置换单元FRU进行管理,实时向所述备系统管理软件备份所述FRU的相关数据;
所述主系统管理硬件上的HPI/IPMI Daemon程序和备系统管理硬件上的HPI/IPMIDaemon程序针对同一FRU分配的ResourceID一致,并各自保持与所述ShMC之间的FRU数据一致性。
其中,所述实时向所述备系统管理软件备份所述FRU的相关数据,具体为:
实时向备系统管理软件备份FRU信息及FRU与HPI DomainID、HPI ResourceID的对应关系。
其中,所述主系统管理硬件上的HPI/IPMI Daemon程序和备系统管理硬件上的HPI/IPMI Daemon程序针对同一FRU分配的ResourceID一致,并各自保持与所述ShMC之间的FRU数据一致性,具体为:
所述主系统管理硬件上的HPI/IPMI Daemon程序和备系统管理硬件上的HPI/IPMIDaemon程序针对同一FRU通过将FRU EntityPath数字化确保分配的ResourceID一致,并通过周期性SEL机制和ShMC主动上报SEL事件机制相结合的方式各自保持与所述ShMC之间的FRU数据一致性。
第二方面,本发明实施例提供一种主备系统管理的实现方法,基于如第一方面所述的支持主备系统管理的智能平台管理系统,包括:
启动两台系统管理硬件上的系统管理软件;
若主系统管理硬件异常,或运行于主系统管理硬件上的系统管理软件或HPI/IPMIDaemon程序发生异常,触发系统管理硬件发生倒换。
其中,所述启动两台系统管理硬件上的系统管理软件,具体为:
系统管理软件进行主/备决策,判断是否为主系统管理软件;
若是主系统管理软件,则与同一硬件上的HPI/IPMI Daemon程序建立HPISession,等待HPI/IPMI Daemon程序完成HPI模型构建及资源发现;
建立FRU与HPI Domain ID、HPI ResourceID的对应关系;
通过HPI接口实时监视或控制FRU,并根据FRU状态实现应用业务逻辑;
实时向备系统管理软件备份FRU状态及信息;
备系统管理软件实时从主系统管理软件接收FRU状态及信息。
其中,所述触发系统管理硬件发生倒换,具体为:
主系统管理软件需倒换为备,并关闭与主系统管理硬件上的HPI/IPMI Daemon程序间的HPI Session;
原备系统管理硬件由备倒换为新的主系统管理硬件,新的主系统管理硬件上的系统管理软件与本硬件上的HPI/IPMI Daemon程序建立新的HPI Session,通过备份数据方式获取FRU与HPI DomainID、HPI ResourceID的对应关系;
通过HPI接口实时监视控制FRU,并根据FRU状态实现应用业务逻辑;
实时向新的备系统管理软件备份FRU状态及信息。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第二方面所提供的主备系统管理的实现方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第二方面所提供的主备系统管理的实现方法的步骤。
本发明实施例提供的支持主备系统管理的智能平台管理系统及实现方法,采用类似OpenHPI中间件软件的方式,在ShMC不支持HPI接口的情况下,实现了系统管理软件以HPI为接口并提供主/备系统管理,系统管理软件开发简单、系统管理主/备切换秒级完成,可达到高可靠性需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为智能化平台管理IPM架构图;
图2为产品化的IPM架构示意图;
图3为以OpenHPI为中间件的系统管理解决方案图;
图4为本发明实施例提供的支持主备系统管理的智能平台管理系统的结构示意图;
图5为系统管理硬件发生倒换后的结构示意图;
图6为本发明实施例提供的主备系统管理的实现方法的流程示意图
图7为系统管理软件的启动流程示意图;
图8为触发系统管理硬件发生倒换的流程示意图;
图9为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
支持ATCA标准的硬件平台,其硬件管理最重要的是进行现场可替换单元FRU硬件资源的管理,系统管理软件需实时获取FRU Hotswap(热插拔)状态的变化是基于ATCA标准的设备提供高可靠性的基石。系统管理软件的高可靠性,最主要需求是系统管理软件或硬件异常触发系统管理倒换时,在秒级内,备系统管理倒换为主系统管理,并能获取FRU信息及FRU Hotswap实时状态。
本发明实施例中采用主/备程序设定主/备角色和不设定主/备角色相结合的方式,实现系统管理软件及中间件软件的主/备功能,满足上述的需求。
值得说明的是,本发明描述的方案,除适应用ATCA标准硬件平台,也适用于MTCA标准硬平台以及其它支持智能平台管理(IPM)并系统管理软件有主备需求的硬件平台系统管理。
图4为本发明实施例提供的支持主备系统管理的智能平台管理系统的结构示意图,包括:主系统管理硬件和备系统管理硬件,其中,
所述主系统管理硬件和备系统管理硬件上均部署系统管理软件和HPI/IPMI中间件软件,如图4中所示,HPI/IPMI中间件软件包括HPI client和HPI/IPMI Daemon程序,所述HPI/IPMI Daemon程序为HPI/IPMI中间件核心软件。
所述系统管理软件设定主/备角色,所述主系统管理硬件上的系统管理软件为主系统管理软件,所述备系统管理硬件上的系统管理软件为备系统管理软件,所述系统管理硬件的主/备角色依靠其上的系统管理软件的主/备角色确定。
所述HPI/IPMI Daemon程序不设定主/备角色,主系统管理硬件上的HPI/IPMIDaemon程序和备系统管理硬件上的HPI/IPMI Daemon程序在系统启动时分别与机框管理控制器ShMC建立不同的IPMI RMCP Session,即主系统管理硬件上的HPI/IPMI Daemon程序和备系统管理硬件上的HPI/IPMI Daemon程序在系统启动时均进行IPMI Discover过程,与ShMC建立连接。
需要说明的是,所述主系统管理硬件上的HPI/IPMI Daemon程序和备系统管理硬件上的HPI/IPMI Daemon程序二者之间无通信通道,二者逻辑独立。
主系统管理软件,与主系统管理硬件上的HPI/IPMI Daemon程序建立HPI Session接收事件,并对现场置换单元FRU进行管理,实时向备系统管理软件备份所述FRU的相关数据;
值得说明的是,仅主系统管理软件与同一硬件上(即主系统管理硬件)的HPI/IPMIDaemon程序建立HPI Session接收事件,备系统管理软件不与备系统管理硬件上的HPI/IPMI Daemon程序建立HPI Session接收事件,主系统管理软件对现场置换单元FRU进行管理并实时向备系统管理软件备份所述FRU的相关数据,备系统管理软件实时接收所述FRU的相关数据。
其中,所述实时向备系统管理软件备份所述FRU的相关数据,具体为:
实时向备系统管理软件备份FRU信息及FRU与HPI DomainID、HPI ResourceID的对应关系。
所述主系统管理硬件上的HPI/IPMI Daemon程序和备系统管理硬件上的HPI/IPMIDaemon程序针对同一FRU分配的ResourceID一致,并各自保持与所述ShMC之间的FRU数据一致性;
具体地,运行于两台系统管理硬件上的HPI/IPMI Daemon程序均在系统启动时进行IPMI Discover过程,且在软件运行的整个生命时长内均通过周期性SEL机制结合ShMC主动上报SEL事件机制确保HPI/IPMI Daemon程序中资源状态与ShMC实时一致;两台系统管理硬件上的HPI/IPMI Daemon程序针对同一FRU通过将FRU EntityPath数字化确保分配的ResourceID一致。
图5为系统管理硬件发生倒换后的结构示意图。如图4和图5所示,系统管理管理硬件1和2之间可以发生秒级倒换。原备系统管理硬件倒换为新的主系统管理硬件后,新主系统管理硬件上的系统管理软件与本硬件上的HPI/IPMI Daemon软件建立新的HPI Session,应用之前备份恢复的数据,结合两台系统硬件上HPI/IPMI Daemon针对同一FRU分配的HPIResourceID一致,无需等待HPI/IPMI Daemon软件进行IPMI Discover和重新获取硬件信息,就可获取HPI事件对FRU进行监控并通过HPI接口进行FRU等硬件控制,实现系统管理服务器倒换在秒级时间内完成,满足电信级高可靠性需求。
在上述实施例的基础上,本发明实施例还提供一种主备系统管理的实现方法,图6为本发明实施例提供的主备系统管理的实现方法的流程示意图,包括:
步骤100,启动两台系统管理硬件上的系统管理软件;
具体地,仅主系统管理软件与HPI/IPMI Daemon程序建立HPI Session接收事件,备系统管理软件不与HPI/IPMI Daemon程序建立HPI Session接收事件,主系统管理软件对现场置换单元FRU进行管理并实时向备系统管理软件备份所述FRU的相关数据,备系统管理软件实时接收所述FRU的相关数据。
所述启动两台系统管理硬件上的系统管理软件,具体包括:
系统管理软件进行主/备决策,判断是否为主系统管理软件;
若是主系统管理软件,则与同一硬件上的HPI/IPMI Daemon程序建立HPISession,等待HPI/IPMI Daemon程序完成HPI模型构建及资源发现;
建立FRU与HPI Domain ID、HPI ResourceID的对应关系;
通过HPI接口实时监视或控制FRU,并根据FRU状态实现应用业务逻辑;
实时向备系统管理软件备份FRU状态及信息;
备系统管理软件实时从主系统管理软件接收FRU状态及信息。
图7为系统管理软件的启动流程示意图。
步骤101,若主系统管理硬件异常,或运行于主系统管理硬件上的系统管理软件或HPI/IPMI Daemon程序发生异常,触发系统管理硬件发生倒换。
具体地,系统管理硬件异常,或运行于主系统管理硬件上的系统管理软件或HPI/IPMI Daemon程序发生异常,均触发系统管理硬件发生倒换。
所述触发系统管理硬件发生倒换,具体包括:
主系统管理软件需倒换为备,并关闭与主系统管理硬件上的HPI/IPMI Daemon程序间的HPI Session;
原备系统管理硬件由备倒换为新的主系统管理硬件,新的主系统管理硬件上的系统管理软件与本硬件上的HPI/IPMI Daemon程序建立新的HPI Session,通过备份数据方式获取FRU与HPI DomainID、HPI ResourceID的对应关系;
通过HPI接口实时监视控制FRU,并根据FRU状态实现应用业务逻辑;
实时向新的备系统管理软件备份FRU状态及信息。
结合两台系统硬件上HPI/IPMI Daemon针对同一FRU分配的HPI ResourceID一致,新的主系统管理硬件无需等待HPI/IPMI Daemon软件进行IPMI Discover和重新获取硬件信息,直接就可获取HPI事件对FRU进行监控并通过HPI接口进行FRU等硬件控制,实现系统管理服务器倒换在秒级时间内完成满足电信级高可靠性需求。
图8为触发系统管理硬件发生倒换的流程示意图。
本发明实施例提供的主备系统管理的实现方法,采用类似OpenHPI中间件软件的方式,在ShMC不支持HPI接口的情况下,实现了系统管理软件以HPI为接口并提供主/备系统管理,系统管理软件开发简单、系统管理主/备切换秒级完成,可达到高可靠性需求。
图9为本发明实施例提供的电子设备的实体结构示意图,如图9所示,该电子设备可以包括:处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940,其中,处理器910,通信接口920,存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储在存储器930上并可在处理器910上运行的计算机程序,以执行上述各方法实施例所提供的主备系统管理的实现方法,例如包括:启动两台系统管理硬件上的系统管理软件;若主系统管理硬件异常,或运行于主系统管理硬件上的系统管理软件或HPI/IPMI Daemon程序发生异常,触发系统管理硬件发生倒换。
此外,上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例提供的主备系统管理的实现方法,例如包括:启动两台系统管理硬件上的系统管理软件;若主系统管理硬件异常,或运行于主系统管理硬件上的系统管理软件或HPI/IPMI Daemon程序发生异常,触发系统管理硬件发生倒换。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种支持主备系统管理的智能平台管理系统,其特征在于,包括:主系统管理硬件和备系统管理硬件,其中,
所述主系统管理硬件和备系统管理硬件上均部署系统管理软件和HPI/IPMI中间件软件,所述HPI/IPMI中间件软件的核心为HPI/IPMI Daemon程序;
所述主系统管理硬件上的系统管理软件为主系统管理软件,所述备系统管理硬件上的系统管理软件为备系统管理软件,所述系统管理硬件的主/备角色依靠其上的系统管理软件的主/备角色确定;
所述HPI/IPMI Daemon程序不设定主/备角色,主系统管理硬件上的HPI/IPMI Daemon程序和备系统管理硬件上的HPI/IPMI Daemon程序在系统启动时分别与机框管理控制器ShMC建立不同的IPMI RMCP Session,所述主系统管理硬件上的HPI/IPMI Daemon程序和备系统管理硬件上的HPI/IPMI Daemon程序二者之间无通信通道;
所述主系统管理软件,与主系统管理硬件上的HPI/IPMI Daemon程序建立HPI Session接收事件,并对现场置换单元FRU进行管理,实时向所述备系统管理软件备份所述FRU的相关数据;
所述主系统管理硬件上的HPI/IPMI Daemon程序和备系统管理硬件上的HPI/IPMIDaemon程序针对同一FRU分配的ResourceID一致,并各自保持与所述ShMC之间的FRU数据一致性;
所述实时向所述备系统管理软件备份所述FRU的相关数据,具体为:
实时向备系统管理软件备份FRU信息及FRU与HPI DomainID、HPI ResourceID的对应关系;
所述主系统管理硬件上的HPI/IPMI Daemon程序和备系统管理硬件上的HPI/IPMIDaemon程序针对同一FRU分配的ResourceID一致,并各自保持与所述ShMC之间的FRU数据一致性,具体为:
所述主系统管理硬件上的HPI/IPMI Daemon程序和备系统管理硬件上的HPI/IPMIDaemon程序针对同一FRU通过将FRU EntityPath数字化确保分配的ResourceID一致,并通过周期性SEL机制和ShMC主动上报SEL事件机制相结合的方式各自保持与所述ShMC之间的FRU数据一致性;
若主系统管理硬件异常,或运行于主系统管理硬件上的系统管理软件或HPI/IPMIDaemon程序发生异常,触发系统管理硬件发生倒换。
2.一种主备系统管理的实现方法,应用于如权利要求1所述的支持主备系统管理的智能平台管理系统,其特征在于,包括:
启动两台系统管理硬件上的系统管理软件;
若主系统管理硬件异常,或运行于主系统管理硬件上的系统管理软件或HPI/IPMIDaemon程序发生异常,触发系统管理硬件发生倒换。
3.根据权利要求2所述的主备系统管理的实现方法,其特征在于,所述启动两台系统管理硬件上的系统管理软件,具体为:
系统管理软件进行主/备决策,判断是否为主系统管理软件;
若是主系统管理软件,则与同一硬件上的HPI/IPMI Daemon程序建立HPI Session,等待HPI/IPMI Daemon程序完成HPI模型构建及资源发现;
建立FRU与HPI Domain ID、HPI ResourceID 的对应关系;
通过HPI接口实时监视或控制FRU,并根据FRU状态实现应用业务逻辑;
实时向备系统管理软件备份FRU状态及信息;
备系统管理软件实时从主系统管理软件接收FRU状态及信息。
4.根据权利要求2所述的主备系统管理的实现方法,其特征在于,所述触发系统管理硬件发生倒换,具体为:
主系统管理软件需倒换为备,并关闭与主系统管理硬件上的HPI/IPMI Daemon程序间的HPI Session;
原备系统管理硬件由备倒换为新的主系统管理硬件,新的主系统管理硬件上的系统管理软件与本硬件上的HPI/IPMI Daemon程序建立新的HPI Session,通过备份数据方式获取FRU与HPI DomainID、HPI ResourceID的对应关系;
通过HPI接口实时监视控制FRU,并根据FRU状态实现应用业务逻辑;
实时向新的备系统管理软件备份FRU状态及信息。
5.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求2至4任一项所述主备系统管理的实现方法的步骤。
6.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求2至4任一项所述主备系统管理的实现方法的步骤。
CN202010182825.5A 2020-03-16 2020-03-16 支持主备系统管理的智能平台管理系统及实现方法 Active CN113407369B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010182825.5A CN113407369B (zh) 2020-03-16 2020-03-16 支持主备系统管理的智能平台管理系统及实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010182825.5A CN113407369B (zh) 2020-03-16 2020-03-16 支持主备系统管理的智能平台管理系统及实现方法

Publications (2)

Publication Number Publication Date
CN113407369A CN113407369A (zh) 2021-09-17
CN113407369B true CN113407369B (zh) 2023-12-22

Family

ID=77676660

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010182825.5A Active CN113407369B (zh) 2020-03-16 2020-03-16 支持主备系统管理的智能平台管理系统及实现方法

Country Status (1)

Country Link
CN (1) CN113407369B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593128A (zh) * 2008-05-26 2009-12-02 上海未来宽带技术及应用工程研究中心有限公司 基于实时操作系统的atca系统中的ipmc及其构建方法
CN102662818A (zh) * 2012-04-28 2012-09-12 浪潮电子信息产业股份有限公司 一种基于智能手持设备的服务器远程监控管理方法
CN108121614A (zh) * 2018-01-16 2018-06-05 郑州云海信息技术有限公司 一种ipmi进程监控方法、系统、设备及计算机介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120017074A1 (en) * 2010-07-16 2012-01-19 International Business Machines Corporation Dynamic system mode switching
CN104639380B (zh) * 2013-11-07 2018-03-09 英业达科技有限公司 服务器监控方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593128A (zh) * 2008-05-26 2009-12-02 上海未来宽带技术及应用工程研究中心有限公司 基于实时操作系统的atca系统中的ipmc及其构建方法
CN102662818A (zh) * 2012-04-28 2012-09-12 浪潮电子信息产业股份有限公司 一种基于智能手持设备的服务器远程监控管理方法
CN108121614A (zh) * 2018-01-16 2018-06-05 郑州云海信息技术有限公司 一种ipmi进程监控方法、系统、设备及计算机介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于HPI的通用ATCA系统管理软件开发研究;张奇智;孙刚;高义河;;电信科学(第03期);全文 *

Also Published As

Publication number Publication date
CN113407369A (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
CN106331098B (zh) 一种服务器集群系统
WO2017177941A1 (zh) 主备数据库切换方法和装置
CN109151045B (zh) 一种分布式云系统及监控方法
CN110830283B (zh) 故障检测方法、装置、设备和系统
GB2407887A (en) Automatically modifying fail-over configuration of back-up devices
CN111865632A (zh) 分布式数据存储集群的切换方法及切换指令发送方法和装置
CN110022257B (zh) 分布式消息系统
CN111342986B (zh) 分布式节点管理方法及装置、分布式系统、存储介质
CN107071189B (zh) 一种通讯设备物理接口的连接方法
CN108200151B (zh) 一种分布式存储系统中ISCSI Target负载均衡方法和装置
US10992770B2 (en) Method and system for managing network service
CN113794765A (zh) 基于文件传输的网闸负载均衡方法及装置
CN111901395B (zh) 多集群切换方法及装置
CN116185697B (zh) 容器集群管理方法、装置、系统、电子设备及存储介质
CN113407369B (zh) 支持主备系统管理的智能平台管理系统及实现方法
CN112099990A (zh) 一种容灾备份方法、装置、设备及机器可读存储介质
CN116455830A (zh) 实现存储网关高可用分布式qos的方法
CN116192885A (zh) 高可用集群架构人工智能实验云平台数据处理方法及系统
CN116346834A (zh) 一种会话同步方法、装置、计算设备及计算机存储介质
JP2015114952A (ja) ネットワークシステム、監視制御装置およびソフトウェア検証方法
CN109753292B (zh) 一种在多单实例数据库服务中部署多个应用的方法及装置
CN111722988A (zh) 一种数据空间节点的故障切换方法和装置
JP2017034610A (ja) 呼処理装置、セッション復旧方法及び呼処理サーバプログラム
CN107783855B (zh) 虚拟网元的故障自愈控制装置及方法
CN112714035A (zh) 监控方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant