CN106815108A - 一种多路服务器故障定位系统 - Google Patents

一种多路服务器故障定位系统 Download PDF

Info

Publication number
CN106815108A
CN106815108A CN201710038661.7A CN201710038661A CN106815108A CN 106815108 A CN106815108 A CN 106815108A CN 201710038661 A CN201710038661 A CN 201710038661A CN 106815108 A CN106815108 A CN 106815108A
Authority
CN
China
Prior art keywords
indicator
server
module
location system
work board
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710038661.7A
Other languages
English (en)
Inventor
李然
姜云轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710038661.7A priority Critical patent/CN106815108A/zh
Publication of CN106815108A publication Critical patent/CN106815108A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开一种多路服务器故障定位系统,包括若干块设置于各路服务器中的工作板卡、设置于各块所述工作板卡上并用于指示其工作状态的指示模块,以及与各块所述工作板卡信号连接、用于监测其运行状况并在其出现运行故障时使对应的所述指示模块示警的故障监测模块。如此,当服务器出现运行故障时,故障监测模块会监测到出现运行故障的服务器,以及出现运行故障的服务器上故障的工作板卡,同时控制指示模块在出现故障的工作板卡上进行示警提示,如此使得检修维护人员在对服务器进行维护时,能够根据工作板卡上的指示模块的示警提示,迅速、准确地判断出运行故障的服务器以及出故障的工作板卡,节省了检修维护时间,提高了检修效率。

Description

一种多路服务器故障定位系统
技术领域
本发明涉及服务器技术领域,特别涉及一种多路服务器故障定位系统。
背景技术
随着科学技术的飞速发展,越来越多政府、高校等机构都对服务器产生了更多种类的需求。
服务器也称伺服器,是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。服务器的构成包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。在网络环境下,根据服务器提供的服务类型不同,分为文件服务器,数据库服务器,应用程序服务器,WEB服务器等。
随着信息技术的发展,单路服务器已经逐渐无法满足不同客户的需求,由此多路服务器开始进入人们的视野。第一代多路服务器体积大,不适于客户存放,而后几代产品实现了结构紧凑,美观易存放等特点。但是结构紧凑给测试人员以及调试人员带来了极大的不便,由于多路服务器结构紧凑且复杂,不容易定位是哪块板卡出现问题,即使定位哪块板卡出现问题,也无法定位某块板卡具体哪里出现问题,只能根据经验猜测问题所在处,如此导致服务器的故障排除效率低。
因此,如何快速、准确地定位多路服务器中的故障位置,是本领域技术人员亟待解决的技术问题。
发明内容
本发明的目的是提供一种多路服务器故障定位系统,能够快速、准确地定位多路服务器中的故障位置。
为解决上述技术问题,本发明提供一种多路服务器故障定位系统,包括若干块设置于各路服务器中的工作板卡、设置于各块所述工作板卡上并用于指示其工作状态的指示模块,以及与各块所述工作板卡信号连接、用于监测其运行状况并在其出现运行故障时使对应的所述指示模块示警的故障监测模块。
优选地,各所述工作板卡上均设置有CPU和内存插槽,所述故障监测模块分别与所述CPU和内存插槽信号连接,且在所述CPU和内存插槽中至少一者出现运行故障时,所述故障监测模块使所述指示模块示警。
优选地,所述指示模块包括用于指示所述CPU的运行状况的第一指示器,以及用于指示所述内存插槽的运行状况的第二指示器,且在所述CPU出现运行故障时,所述故障监测模块使所述第一指示器示警;在所述内存插槽出现运行故障时,所述故障监测模块使所述第二指示器示警。
优选地,所述第一指示器和第二指示器均为指示灯,且通过不同色彩信息指示不同的运行状况。
优选地,所述第一指示器和第二指示器上均设置有用于显示故障信息的显示器。
优选地,所述第一指示器和第二指示器上还设置有用于发出预设示警提示音的扬声器。
优选地,所述故障监测模块包括用于监控所述工作板卡上各个元件间的信号传递状态的信号追踪器,以及与所述信号追踪器信号连接、用于判断信号传递中断时的归属元件的信号分析器。
优选地,所述故障监测模块具体为CPLD和/或BMC。
优选地,各块所述工作板卡还设置有用于使其在与服务器脱离连接后继续运行预设时间的备用电源。
本发明所提供的多路服务器故障定位系统,主要包括工作板卡、指示模块和故障监测模块。其中,工作板卡设置在服务器中,并且在一路服务器中可能设置有多块,而服务器同样可以同时存在多路。指示模块设置在工作板卡上,主要用于指示工作板卡的工作状态,比如正常或故障等。故障监测模块与各块工作板卡信号连接,主要用于监测各块工作板卡的运行状况,并且在监测到某块工作板卡出现运行故障时,驱动与该工作板卡相对应的指示模块进行示警。如此,本发明所提供的多路服务器故障定位系统,当服务器出现运行故障时,故障监测模块会监测到出现运行故障的服务器,以及出现运行故障的服务器上故障的工作板卡,同时控制指示模块在出现故障的工作板卡上进行示警提示,如此使得检修维护人员在对服务器进行维护时,能够根据工作板卡上的指示模块的示警提示,迅速、准确地判断出运行故障的服务器以及出故障的工作板卡,节省了检修维护时间,提高了检修效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明所提供的一种具体实施方式的模块结构示意图。
其中,图1中:
工作板卡—1,CPU—101,内存插槽—102,指示模块—2,第一指示器—201,第二指示器—202,故障监测模块—3,信号追踪器—301,信号分析器—302,备用电源—4。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明所提供的一种具体实施方式的模块结构示意图。
在本发明所提供的一种具体实施方式中,多路服务器故障定位系统主要包括工作板卡1、指示模块2和故障监测模块3。
其中,工作板卡1设置在服务器中,并且在一路服务器中可能设置有多块,而服务器同样可以同时存在多路。工作板卡1为服务器的核心功能区,在其上设置有多个元件或模块。
指示模块2设置在工作板卡1上,主要用于指示工作板卡1的工作状态,比如正常或故障等。故障监测模块3与各块工作板卡1信号连接,主要用于监测各块工作板卡1的运行状况,并且在监测到某块工作板卡1出现运行故障时,驱动与该工作板卡1相对应的指示模块2进行示警。
如此,当服务器出现运行故障时,故障监测模块3会监测到出现运行故障的服务器,以及出现运行故障的服务器上故障的工作板卡1,同时控制指示模块2在出现故障的工作板卡1上进行示警提示,如此使得检修维护人员在对服务器进行维护时,能够根据工作板卡1上的指示模块2的示警提示,迅速、准确地判断出运行故障的服务器以及出故障的工作板卡1,节省了检修维护时间,提高了检修效率。
在关于工作板卡1的一种优选实施方式中,该工作板卡1上主要设置有CPU101和内存插槽102,并且故障监测模块3分别与CPU101和内存插槽102信号连接。如此,故障监测模块3即可监控CPU101和内存插槽102在运行时的电流、电压等变化或数据、信号传递等状态。并且,当故障监测模块3监测到CPU101和内存插槽102的运行状态出现异常时,即可判断CPU101和/或内存插槽102出现运行故障。此时,故障监测模块3控制设置在该块工作板卡1上的指示模块2进行示警,以提示技术人员出现故障的工作板卡1的准确位置。此处优选地,当CPU101和内存插槽102中的至少一者出现运行故障时,故障监测模块3即控制指示模块2进行示警。
在关于指示模块2的一种优选实施方式中,该指示模块2主要包括第一指示器201和第二指示器202。其中,第一指示器201主要用于指示CPU101的运行状况,而第二指示器202主要用于指示内存插槽102的运行状况。并且,第一指示器201和第二指示器202的运行是互相独立的,互不影响,即当CPU101出现运行故障时,故障监测模块3控制第一指示器201进行示警,而当内存插槽102出现运行故障时,故障监测模块3控制第二指示器202进行示警。如此设置,当检修人员对服务器进行检修作业时,不仅能够快速、准确地找到出故障的服务器和工作板卡1,还能找到工作板卡1上出故障的元件或模块等。
具体的,该第一指示器201和第二指示器202可均为指示灯,并且可通过不同色彩信息指示不同的运行状况。比如,指示灯发出绿色光时,表示CPU101和内存插槽102都运行正常;而指示灯发出红色光时,表示CPU101和内存插槽102出现运行故障。当然,指示灯通过色彩信息示警的方式并不仅限于上述方式,其余色彩信息同样可行。
此外,本实施例还在第一指示器201和第二指示器202上均设置了用于显示故障信息的显示器,比如可在显示器上显示出现故障的CPU101或内存插槽102的文字信息,例如“CPU101error”等。
进一步的,本实施例还在第一指示器201和第二指示器202上均设置了用于发出预设示警提示音的扬声器,比如可在CPU101出现运行故障时,发出声音为“CPU101运行错误”等的声音提示信息。
在关于故障监测模块3的一种优选实施方式中,该故障监测模块3主要包括信号追踪器301和信号分析器302。其中,信号追踪器301主要用于监控工作板卡1上各个元件间的信号传递状态,对CPU101和内存插槽102等元件之间的信号传递形成路径跟踪。而信号分析器302与信号追踪器301信号连接,主要用于根据信号追踪器301的跟踪结果判断信号传递中断时的归属元件。比如,某个信号从CPU101中发出后,能够正常传递,说明书CPU101运行正常,而该信号在被内存插槽102接收之后,并未作出预设反应,此时可判断内存插槽102运行故障。具体的故障元件判断方法很多,并不仅限于上述判断方式,此处不再赘述。
具体的,故障监测模块3可为CPLD(Complex Programmable Logic Device,复杂可编程逻辑器件)、BMC(Baseboard Management Controller,基板管理控制器)或者两者的结合。其中,CPLD可监控各个元件的电流以及重要信号,而BMC可监控报错信息,并且,CPLD与BMC之间可通过不同的协议通信,比如I2C、UART等。具体的,CPU101信息和内存插槽102信息可通过BIOS通知到BMC,然后再传递给CPLD,或者直接通过CPLD进行全局监控。与BMC之间可通过不同的协议通信,比如I2C、UART等。
另外,本实施例还在各块工作板卡1上设置了备用电源4,如此可使工作板卡1由于检修需要与服务器脱离连接后,仍然能够持续运行一段时间,避免故障时出现的BUG等情况丢失。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种多路服务器故障定位系统,其特征在于,包括若干块设置于各路服务器中的工作板卡(1)、设置于各块所述工作板卡(1)上并用于指示其工作状态的指示模块(2),以及与各块所述工作板卡(1)信号连接、用于监测其运行状况并在其出现运行故障时使对应的所述指示模块(2)示警的故障监测模块(3)。
2.根据权利要求1所述的多路服务器故障定位系统,其特征在于,各所述工作板卡(1)上均设置有CPU(101)和内存插槽(102),所述故障监测模块(3)分别与所述CPU(101)和内存插槽(102)信号连接,且在所述CPU(101)和内存插槽(102)中至少一者出现运行故障时,所述故障监测模块(3)使所述指示模块(2)示警。
3.根据权利要求2所述的多路服务器故障定位系统,其特征在于,所述指示模块(2)包括用于指示所述CPU(101)的运行状况的第一指示器(201),以及用于指示所述内存插槽(102)的运行状况的第二指示器(202),且在所述CPU(101)出现运行故障时,所述故障监测模块(3)使所述第一指示器(201)示警;在所述内存插槽(102)出现运行故障时,所述故障监测模块(3)使所述第二指示器(202)示警。
4.根据权利要求3所述的多路服务器故障定位系统,其特征在于,所述第一指示器(201)和第二指示器(202)均为指示灯,且通过不同色彩信息指示不同的运行状况。
5.根据权利要求4所述的多路服务器故障定位系统,其特征在于,所述第一指示器(201)和第二指示器(202)上均设置有用于显示故障信息的显示器。
6.根据权利要求5所述的多路服务器故障定位系统,其特征在于,所述第一指示器(201)和第二指示器(202)上还设置有用于发出预设示警提示音的扬声器。
7.根据权利要求1-6任一项所述的多路服务器故障定位系统,其特征在于,所述故障监测模块(3)包括用于监控所述工作板卡(1)上各个元件间的信号传递状态的信号追踪器(301),以及与所述信号追踪器(301)信号连接、用于判断信号传递中断时的归属元件的信号分析器(302)。
8.根据权利要求7所述的多路服务器故障定位系统,其特征在于,所述故障监测模块(3)具体为CPLD和/或BMC。
9.根据权利要求8所述的多路服务器故障定位系统,其特征在于,各块所述工作板卡(1)还设置有用于使其在与服务器脱离连接后继续运行预设时间的备用电源(4)。
CN201710038661.7A 2017-01-19 2017-01-19 一种多路服务器故障定位系统 Pending CN106815108A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710038661.7A CN106815108A (zh) 2017-01-19 2017-01-19 一种多路服务器故障定位系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710038661.7A CN106815108A (zh) 2017-01-19 2017-01-19 一种多路服务器故障定位系统

Publications (1)

Publication Number Publication Date
CN106815108A true CN106815108A (zh) 2017-06-09

Family

ID=59112414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710038661.7A Pending CN106815108A (zh) 2017-01-19 2017-01-19 一种多路服务器故障定位系统

Country Status (1)

Country Link
CN (1) CN106815108A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536568A (zh) * 2018-04-11 2018-09-14 英业达科技有限公司 一种服务器系统及主板
CN109359016A (zh) * 2018-09-27 2019-02-19 郑州云海信息技术有限公司 一种硬盘告警方法与装置
CN109828891A (zh) * 2018-12-27 2019-05-31 卡斯柯信号有限公司 一种故障指示灯识别方法
CN111190799A (zh) * 2019-12-30 2020-05-22 鹍骐科技(北京)股份有限公司 可实现故障板卡识别的计算机系统
CN111639005A (zh) * 2020-05-19 2020-09-08 成都市爱科科技实业有限公司 一种服务器状态独立监控系统及方法
CN114706703A (zh) * 2022-03-23 2022-07-05 飞腾信息技术有限公司 多路服务器系统故障诊断装置、系统及方法
CN115562915A (zh) * 2022-09-28 2023-01-03 中科可控信息产业有限公司 内存槽故障检测系统和方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050177766A1 (en) * 2004-01-14 2005-08-11 Hewlett-Packard Development Systems and methods for fault-tolerant processing with processor regrouping based on connectivity conditions
CN102521109A (zh) * 2011-12-31 2012-06-27 曙光信息产业股份有限公司 服务器状态监测方法
CN103425545A (zh) * 2013-08-20 2013-12-04 浪潮电子信息产业股份有限公司 一种多处理器服务器的系统容错方法
CN103995768A (zh) * 2014-06-10 2014-08-20 浪潮电子信息产业股份有限公司 一种服务器故障可视化快速诊断的方法
CN104598329A (zh) * 2015-02-12 2015-05-06 浪潮电子信息产业股份有限公司 一种基于rmc管理的自动bmc故障解决方法
CN205229909U (zh) * 2015-12-17 2016-05-11 山东海量信息技术研究院 一种基于多路服务器计算板与互连板卡的power背板
CN105677500A (zh) * 2016-01-05 2016-06-15 浪潮电子信息产业股份有限公司 一种实时服务器故障诊断的方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050177766A1 (en) * 2004-01-14 2005-08-11 Hewlett-Packard Development Systems and methods for fault-tolerant processing with processor regrouping based on connectivity conditions
CN102521109A (zh) * 2011-12-31 2012-06-27 曙光信息产业股份有限公司 服务器状态监测方法
CN103425545A (zh) * 2013-08-20 2013-12-04 浪潮电子信息产业股份有限公司 一种多处理器服务器的系统容错方法
CN103995768A (zh) * 2014-06-10 2014-08-20 浪潮电子信息产业股份有限公司 一种服务器故障可视化快速诊断的方法
CN104598329A (zh) * 2015-02-12 2015-05-06 浪潮电子信息产业股份有限公司 一种基于rmc管理的自动bmc故障解决方法
CN205229909U (zh) * 2015-12-17 2016-05-11 山东海量信息技术研究院 一种基于多路服务器计算板与互连板卡的power背板
CN105677500A (zh) * 2016-01-05 2016-06-15 浪潮电子信息产业股份有限公司 一种实时服务器故障诊断的方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536568A (zh) * 2018-04-11 2018-09-14 英业达科技有限公司 一种服务器系统及主板
CN109359016A (zh) * 2018-09-27 2019-02-19 郑州云海信息技术有限公司 一种硬盘告警方法与装置
CN109828891A (zh) * 2018-12-27 2019-05-31 卡斯柯信号有限公司 一种故障指示灯识别方法
CN109828891B (zh) * 2018-12-27 2022-06-24 卡斯柯信号有限公司 一种故障指示灯识别方法
CN111190799A (zh) * 2019-12-30 2020-05-22 鹍骐科技(北京)股份有限公司 可实现故障板卡识别的计算机系统
CN111190799B (zh) * 2019-12-30 2023-03-14 鹍骐科技(北京)股份有限公司 可实现故障板卡识别的计算机系统
CN111639005A (zh) * 2020-05-19 2020-09-08 成都市爱科科技实业有限公司 一种服务器状态独立监控系统及方法
CN114706703A (zh) * 2022-03-23 2022-07-05 飞腾信息技术有限公司 多路服务器系统故障诊断装置、系统及方法
CN114706703B (zh) * 2022-03-23 2023-10-20 飞腾信息技术有限公司 多路服务器系统故障诊断装置、系统及方法
CN115562915A (zh) * 2022-09-28 2023-01-03 中科可控信息产业有限公司 内存槽故障检测系统和方法

Similar Documents

Publication Publication Date Title
CN106815108A (zh) 一种多路服务器故障定位系统
CN103607297B (zh) 一种计算机集群系统的故障处理方法
US6636977B1 (en) Control device for use in a power supplying apparatus including multiple processors adapted to perform separate functions associated with status monitoring and load balancing
JP2004259044A (ja) 情報処理装置の管理方法およびシステム
TW201119173A (en) Method of using power supply to execute remote monitoring of an electronic system
CN110032465A (zh) 一种bmc重启日志记录方法和装置
CN102026042A (zh) 一种高级电信计算架构控制面的保活、自愈方法和装置
CN101110053A (zh) 一种实现计算机故障报警控制的方法
CN107026759A (zh) 一种基于bmc的远程管理bbu模块的固件及其开发方法
CN105119765B (zh) 一种智能处理故障体系架构
CN109598641A (zh) 一种保供电工作管控系统
TW200301418A (en) Computer system with dedicated system management buses
CN205983124U (zh) 一种综合监控系统
CN116483613B (zh) 故障内存条的处理方法及装置、电子设备及存储介质
CN101964731B (zh) 一种数据链路监测方法及装置
US20110291478A1 (en) Power distribution management
PT106631A (pt) Método para operar um sistema de categorização/degradação dos procedimentos de operação em baixa visibilidade (lvp) da pista de um aeroporto
CN114528163A (zh) 一种服务器故障硬盘自动定位系统、方法及装置
CN113868037A (zh) 一种判断硬盘背板线缆连接准确性的系统和方法
CN114003426A (zh) 故障处理方法、系统和电子设备
CN2924608Y (zh) 列车驾驶信息显示单元
CN117951069B (zh) 一种服务器系统、通信方法和服务器
CN103019202A (zh) 冗余fep备用接口状态在线检测方法
CN109840007A (zh) 服务器冗余电源系统及管理方法
CN106959917A (zh) 一种服务器故障监控的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170609

RJ01 Rejection of invention patent application after publication