CN112256628A - 一种基于国产单片机的多单元服务器故障管理方法 - Google Patents
一种基于国产单片机的多单元服务器故障管理方法 Download PDFInfo
- Publication number
- CN112256628A CN112256628A CN202011153170.5A CN202011153170A CN112256628A CN 112256628 A CN112256628 A CN 112256628A CN 202011153170 A CN202011153170 A CN 202011153170A CN 112256628 A CN112256628 A CN 112256628A
- Authority
- CN
- China
- Prior art keywords
- board
- domestic
- computing
- state information
- management
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007726 management method Methods 0.000 title claims abstract description 90
- 230000002159 abnormal effect Effects 0.000 claims abstract description 28
- 230000005540 biological transmission Effects 0.000 abstract description 7
- 238000000034 method Methods 0.000 abstract description 6
- 238000013024 troubleshooting Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/76—Architectures of general purpose stored program computers
- G06F15/78—Architectures of general purpose stored program computers comprising a single central processing unit
- G06F15/7807—System on chip, i.e. computer system on a single chip; System in package, i.e. computer system on one or more chips in a single package
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3055—Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
Abstract
本发明公开一种基于国产单片机的多单元服务器故障管理方法,涉及服务器管理技术领域;针对多单元服务器搭建至少两块计算板和一块管理板,每块计算板上的国产单片机收集本板的状态信息,并获取系统的运行状态信息,管理板上国产单片机轮询各个计算板的运行状态信息,当存在计算板状态异常,管理板的国产单片机进行报警,并提供相应的状态异常的计算板的国产单片机所采集到的的运行状态信息,以便进行故障原因查询。利用本发明方法简化了多元单元服务器的设计,使用国产单片机避免信息泄露风险的同时,能够快速准确地获取出现故障的计算板,便于进行计算板故障的排查,并且多单元的计算板架构可以减少数据传输量,提高传输效率。
Description
技术领域
本发明公开一种服务器故障管理方法,涉及服务器管理技术领域,具体地说是一种基于国产单片机的多单元服务器故障管理方法。
背景技术
多单元服务器是指在一台服务器中内置多个计算板卡,进而增强服务器的计算的能力,从而减小服务器尺寸的先进服务器架构。现有多单元服务器的故障管理大多通过BMC芯片实现,存在信息泄露的隐患。且现有多单元服务器的故障管理多为集中管理,需要千兆网络作为管理信息的交互通路,增加了计算板的设计难度和管理板的负担。
发明内容
本发明针对现有技术的问题,提供一种基于国产单片机的多单元服务器故障管理方法,使用国产单片机进行多单元服务器故障管理,避免信息泄露风险的同时,可以减少数据传输量,简化设计。
本发明提出的具体方案是:
一种基于国产单片机的多单元服务器故障管理方法,针对多单元服务器搭建至少两块计算板和一块管理板,每块计算板上的国产单片机收集本板的状态信息,并获取系统的运行状态信息,管理板上国产单片机轮询各个计算板的运行状态信息,当存在计算板状态异常,管理板的国产单片机进行报警,并提供相应的状态异常的计算板的国产单片机所采集到的的运行状态信息,以便进行故障原因查询。
优选地,所述的一种基于国产单片机的多单元服务器故障管理方法中管理板的国产单片机通过背板的总线与各个计算板的国产单片机通信。
优选地,所述的一种基于国产单片机的多单元服务器故障管理方法中计算板上的国产单片机将获得的状态信息和运行状态信息存储在计算板的EEPROM中,
管理板的国产单片机将获得的各个计算板的槽位号和对应的运行状态信息存储在管理板的EEPROM中。
优选地,所述的一种基于国产单片机的多单元服务器故障管理方法中计算板上的国产单片机收集本板的电压的状态信息和温度的状态信息,并通过与CPU系统通讯,获取系统的运行状态信息。
优选地,所述的一种基于国产单片机的多单元服务器故障管理方法中各个计算板的国产单片机传递给管理板的国产单片机的运行状态信息中,0表示运行状态正常,1表示运行状态异常。
一种基于国产单片机的多单元服务器,包括至少两块计算板和一块管理板,每块计算板上的国产单片机收集本板的状态信息,并获取系统的运行状态信息,管理板上国产单片机轮询各个计算板的运行状态信息,当存在计算板状态异常,管理板的国产单片机进行报警,并提供相应的状态异常的计算板的国产单片机所采集到的的运行状态信息,以便进行故障原因查询。
优选地,所述的一种基于国产单片机的多单元服务器中管理板的国产单片机通过背板的总线与各个计算板的国产单片机通信。
优选地,所述的一种基于国产单片机的多单元服务器中计算板上的国产单片机将获得的状态信息和运行状态信息存储在计算板的EEPROM中,
管理板的国产单片机将获得的各个计算板的槽位号和对应的运行状态信息存储在管理板的EEPROM中。
本发明的有益之处是:
本发明提供一种基于国产单片机的多单元服务器故障管理方法,针对多单元服务器搭建至少两块计算板和一块管理板,每块计算板上的国产单片机收集本板的状态信息,并获取系统的运行状态信息,管理板上国产单片机轮询各个计算板的运行状态信息,当存在计算板状态异常,管理板的国产单片机进行报警,并提供相应的状态异常的计算板的国产单片机所采集到的的运行状态信息,以便进行故障原因查询。利用本发明方法简化了多元单元服务器的设计,使用国产单片机避免信息泄露风险的同时,能够快速准确地获取出现故障的计算板,便于进行计算板故障的排查,并且多单元的计算板架构可以减少数据传输量,提高传输效率。
附图说明
图1是本发明方法流程示意图;
图2是本发明服务器内的板卡框架示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
本发明提供一种基于国产单片机的多单元服务器故障管理方法,针对多单元服务器搭建至少两块计算板和一块管理板,每块计算板上的国产单片机收集本板的状态信息,并获取系统的运行状态信息,管理板上国产单片机轮询各个计算板的运行状态信息,当存在计算板状态异常,管理板的国产单片机进行报警,并提供相应的状态异常的计算板的国产单片机所采集到的的运行状态信息,以便进行故障原因查询。
利用本发明方法针对多单元服务器,搭建若干个计算板和一个管理板,简化了多元单元服务器的设计,通过每块计算板上的国产单片机收集本板的状态信息,并获取系统的运行状态信息,通过管理板上国产单片机轮询各个计算板的运行状态信息,并在计算板状态异常,管理板的国产单片机进行报警,并提供相应的状态异常的计算板的国产单片机所采集到的的运行状态信息,以便进行故障原因查询。通过使用国产单片机避免信息泄露风险的同时,能够快速准确地获取出现故障的计算板,便于进行计算板故障的排查。
具体应用中,在本发明的一些实施例中,管理板的国产单片机通过背板的总线与各个计算板的国产单片机通信,计算板上的国产单片机用于收集本板的电压、温度等状态信息,还可以与CPU系统进行通讯,获取系统的运行状态信息,单片机可以每隔2s将这些信息存储在EEPROM中,
而管理板上的国产单片机,可以通过背板的IIC总线轮询各个计算板的运行状态信息,轮询的时间间隔可调,该国产单片机可以将各个计算板的槽位号和对应的运行状态存储在管理板的EEPROM中。
并且各个计算板单片机传递给管理板单片机的运行状态只需要1个bit的数据,0表示运行状态正常,1表示运行状态异常,因此使用IIC总线完全可以满足数据传输的需求,当有计算板状态异常时,管理板的单片机也会控制声光报警电路进行报警,用户可以通过管理板上的国产单片机引出的管理网口实时查看各个计算板的状态,通过管理网口查看是哪个计算板异常,可以直接通过命令让管理板单片机获取相应计算板单片机采集到的此时的运行状态信息,使用管理网口进行查看。
当用户确认是哪个计算板出现故障后,也可以拆除该计算板,使用计算板上的调试串口查看具体日志,进一步确定故障原因。
同时,本发明还提供一种基于国产单片机的多单元服务器,包括至少两块计算板和一块管理板,每块计算板上的国产单片机收集本板的状态信息,并获取系统的运行状态信息,管理板上国产单片机轮询各个计算板的运行状态信息,当存在计算板状态异常,管理板的国产单片机进行报警,并提供相应的状态异常的计算板的国产单片机所采集到的的运行状态信息,以便进行故障原因查询。
上述服务器各板卡之间的信息交互、执行过程等内容,与本发明方法实施例基于同一构思。其中在本发明服务器的一些实施例中,管理板的国产单片机通过背板的总线与各个计算板的国产单片机通信,计算板上的国产单片机用于收集本板的电压、温度等状态信息,还可以与CPU系统进行通讯,获取系统的运行状态信息,单片机可以每隔2s将这些信息存储在EEPROM中,
而管理板上的国产单片机,可以通过背板的IIC总线轮询各个计算板的运行状态信息,轮询的时间间隔可调,该国产单片机可以将各个计算板的槽位号和对应的运行状态存储在管理板的EEPROM中。
并且各个计算板单片机传递给管理板单片机的运行状态只需要1个bit的数据,0表示运行状态正常,1表示运行状态异常,因此使用IIC总线完全可以满足数据传输的需求,当有计算板状态异常时,管理板的单片机也会控制声光报警电路进行报警,用户可以通过服务器的管理板上的国产单片机引出的管理网口实时查看各个计算板的状态,通过管理网口查看是哪个计算板异常,可以直接通过命令让管理板单片机获取相应计算板单片机采集到的此时的运行状态信息,使用管理网口进行查看。
当用户确认是哪个计算板出现故障后,也可以拆除服务器的该计算板,使用计算板上的调试串口查看具体日志,进一步确定故障原因。
针对本发明多单元服务器,包括若干个计算板和一个管理板,简化了多元单元服务器的设计,通过每块计算板上的国产单片机收集本板的状态信息,并获取系统的运行状态信息,通过管理板上国产单片机轮询各个计算板的运行状态信息,并在计算板状态异常,管理板的国产单片机进行报警,并提供相应的状态异常的计算板的国产单片机所采集到的的运行状态信息,以便进行故障原因查询。通过使用国产单片机避免信息泄露风险的同时,能够快速准确地获取出现故障的计算板,便于进行计算板故障的排查。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。
Claims (8)
1.一种基于国产单片机的多单元服务器故障管理方法,其特征是针对多单元服务器搭建至少两块计算板和一块管理板,每块计算板上的国产单片机收集本板的状态信息,并获取系统的运行状态信息,管理板上国产单片机轮询各个计算板的运行状态信息,当存在计算板状态异常,管理板的国产单片机进行报警,并提供相应的状态异常的计算板的国产单片机所采集到的的运行状态信息,以便进行故障原因查询。
2.根据权利要求1所述的一种基于国产单片机的多单元服务器故障管理方法,其特征是管理板的国产单片机通过背板的总线与各个计算板的国产单片机通信。
3.根据权利要求1或2所述的一种基于国产单片机的多单元服务器故障管理方法,其特征是计算板上的国产单片机将获得的状态信息和运行状态信息存储在计算板的EEPROM中,
管理板的国产单片机将获得的各个计算板的槽位号和对应的运行状态信息存储在管理板的EEPROM中。
4.根据权利要求3所述的一种基于国产单片机的多单元服务器故障管理方法,其特征是计算板上的国产单片机收集本板的电压的状态信息和温度的状态信息,并通过与CPU系统通讯,获取系统的运行状态信息。
5.根据权利要求4所述的一种基于国产单片机的多单元服务器故障管理方法,其特征是各个计算板的国产单片机传递给管理板的国产单片机的运行状态信息中,0表示运行状态正常,1表示运行状态异常。
6.一种基于国产单片机的多单元服务器,其特征是包括至少两块计算板和一块管理板,每块计算板上的国产单片机收集本板的状态信息,并获取系统的运行状态信息,管理板上国产单片机轮询各个计算板的运行状态信息,当存在计算板状态异常,管理板的国产单片机进行报警,并提供相应的状态异常的计算板的国产单片机所采集到的的运行状态信息,以便进行故障原因查询。
7.根据权利要求6所述的一种基于国产单片机的多单元服务器,其特征是管理板的国产单片机通过背板的总线与各个计算板的国产单片机通信。
8.根据权利要求6或7所述的一种基于国产单片机的多单元服务器,其特征是计算板上的国产单片机将获得的状态信息和运行状态信息存储在计算板的EEPROM中,
管理板的国产单片机将获得的各个计算板的槽位号和对应的运行状态信息存储在管理板的EEPROM中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011153170.5A CN112256628A (zh) | 2020-10-26 | 2020-10-26 | 一种基于国产单片机的多单元服务器故障管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011153170.5A CN112256628A (zh) | 2020-10-26 | 2020-10-26 | 一种基于国产单片机的多单元服务器故障管理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112256628A true CN112256628A (zh) | 2021-01-22 |
Family
ID=74261823
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011153170.5A Pending CN112256628A (zh) | 2020-10-26 | 2020-10-26 | 一种基于国产单片机的多单元服务器故障管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112256628A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102495786A (zh) * | 2011-12-30 | 2012-06-13 | 曙光信息产业股份有限公司 | 服务器系统 |
CN105577447A (zh) * | 2016-01-07 | 2016-05-11 | 烽火通信科技股份有限公司 | 一种通信设备机电管理总线故障节点的定位及隔离方法 |
CN106027351A (zh) * | 2016-07-07 | 2016-10-12 | 北京华电天仁电力控制技术有限公司 | 一种嵌入式Web服务器现场总线故障诊断通信模块 |
US20170085637A1 (en) * | 2015-03-09 | 2017-03-23 | Vapor IO Inc. | Data center management |
CN108388497A (zh) * | 2018-02-09 | 2018-08-10 | 深圳市杰和科技发展有限公司 | 多节点高密度服务器的监控及管理系统和方法 |
CN110048889A (zh) * | 2019-04-18 | 2019-07-23 | 山东超越数控电子股份有限公司 | 一种高可靠的机柜管理系统 |
CN110083505A (zh) * | 2019-04-09 | 2019-08-02 | 山东超越数控电子股份有限公司 | 一种自主设备的智能管理实现系统 |
CN110336701A (zh) * | 2019-07-11 | 2019-10-15 | 山东超越数控电子股份有限公司 | 一种高密度双路服务器管理方法及系统 |
CN210515178U (zh) * | 2019-12-05 | 2020-05-12 | 山东超越数控电子股份有限公司 | 一种基于国产cpu实现的刀片服务器的管理板 |
CN111679601A (zh) * | 2020-05-28 | 2020-09-18 | 深圳市信锐网科技术有限公司 | 多板卡设备的控制方法、多板卡设备及介质 |
-
2020
- 2020-10-26 CN CN202011153170.5A patent/CN112256628A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102495786A (zh) * | 2011-12-30 | 2012-06-13 | 曙光信息产业股份有限公司 | 服务器系统 |
US20170085637A1 (en) * | 2015-03-09 | 2017-03-23 | Vapor IO Inc. | Data center management |
CN105577447A (zh) * | 2016-01-07 | 2016-05-11 | 烽火通信科技股份有限公司 | 一种通信设备机电管理总线故障节点的定位及隔离方法 |
CN106027351A (zh) * | 2016-07-07 | 2016-10-12 | 北京华电天仁电力控制技术有限公司 | 一种嵌入式Web服务器现场总线故障诊断通信模块 |
CN108388497A (zh) * | 2018-02-09 | 2018-08-10 | 深圳市杰和科技发展有限公司 | 多节点高密度服务器的监控及管理系统和方法 |
CN110083505A (zh) * | 2019-04-09 | 2019-08-02 | 山东超越数控电子股份有限公司 | 一种自主设备的智能管理实现系统 |
CN110048889A (zh) * | 2019-04-18 | 2019-07-23 | 山东超越数控电子股份有限公司 | 一种高可靠的机柜管理系统 |
CN110336701A (zh) * | 2019-07-11 | 2019-10-15 | 山东超越数控电子股份有限公司 | 一种高密度双路服务器管理方法及系统 |
CN210515178U (zh) * | 2019-12-05 | 2020-05-12 | 山东超越数控电子股份有限公司 | 一种基于国产cpu实现的刀片服务器的管理板 |
CN111679601A (zh) * | 2020-05-28 | 2020-09-18 | 深圳市信锐网科技术有限公司 | 多板卡设备的控制方法、多板卡设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103905253B (zh) | 一种基于Nagios和BMC的服务器监控管理方法 | |
CN109871089A (zh) | 一种vpx架构的综合集成平台 | |
CN109597399B (zh) | 用于信息化火箭发射的信息控制平台 | |
CN106066821A (zh) | Vpx设备的智能机箱管理系统 | |
CN105426286B (zh) | 一种对整机柜服务器进行监控的系统 | |
CN106603265A (zh) | 管理方法、服务控制器装置以及非暂态计算机可读介质 | |
CN105897471A (zh) | 一种带外管理系统及方法 | |
CN106708707A (zh) | 一种基于服务器架构的服务器监控系统 | |
CN111858411B (zh) | 实现服务器Expander卡带外交互的系统及方法 | |
CN110048889A (zh) | 一种高可靠的机柜管理系统 | |
CN110932887A (zh) | 一种bmc调试方法、系统及装置 | |
CN103076869A (zh) | 一种rack机柜系统带电维护的设计方法 | |
CN208188815U (zh) | Bmc模块化系统 | |
CN210515178U (zh) | 一种基于国产cpu实现的刀片服务器的管理板 | |
CN112882901A (zh) | 一种分布式处理系统健康状态智能监控器 | |
CN202710986U (zh) | 振动监视保护装置的背板总线式结构 | |
KR100775982B1 (ko) | 보장형 분산 제어 시스템 | |
CN206460446U (zh) | 一种针对加固计算机主板的监控装置 | |
CN109633345A (zh) | 一种二次设备在线监测与分析装置 | |
CN112256628A (zh) | 一种基于国产单片机的多单元服务器故障管理方法 | |
CN111953525A (zh) | 专有设备运维监控系统 | |
CN102255766A (zh) | 服务器系统 | |
CN208271171U (zh) | 一种服务器调试装置及服务器 | |
CN207965882U (zh) | 一种用于服务器信号监控的模块化板卡 | |
CN206627947U (zh) | 一种信息收集记录Debug卡 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210122 |