CN112445680A - 一种数据中心机房服务器远程监测与检修系统和方法 - Google Patents

一种数据中心机房服务器远程监测与检修系统和方法 Download PDF

Info

Publication number
CN112445680A
CN112445680A CN202011280192.8A CN202011280192A CN112445680A CN 112445680 A CN112445680 A CN 112445680A CN 202011280192 A CN202011280192 A CN 202011280192A CN 112445680 A CN112445680 A CN 112445680A
Authority
CN
China
Prior art keywords
server
monitoring
maintenance
machine room
main
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011280192.8A
Other languages
English (en)
Inventor
刘坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202011280192.8A priority Critical patent/CN112445680A/zh
Publication of CN112445680A publication Critical patent/CN112445680A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Abstract

本发明公开了一种数据中心机房服务器远程监测与检修系统,与主、副服务器相连,所述系统包括:服务器监控部分、数据交互部分、服务器异常诊断部分和服务器维修部分;所述服务器监控部分用于对主服务器进行监测、判决和副服务器使能;所述数据交互部分用于各个部分的无线数据中转承载;所述服务器异常诊断部分用于主服务器异常时的现场分析、等级划分、判决执行和定位;所述服务器维修部分对异常的主服务器进行检测、数据采集和执行解决方案,通过上述方式,本发明实现了故障检验,远程检修和监测,减少了机房维护的人力开销,提升了故障报错的准确力,避免服务器故障维修人员现场确认对机房稳态造成破坏。

Description

一种数据中心机房服务器远程监测与检修系统和方法
技术领域
本发明涉及服务器领域,特别是涉及一种数据中心机房服务器远程监测与检修系统和方法。
背景技术
目前数据中心机房服务器上架方式一般采用机柜式存放,每组机柜中会放置多台服务器,上架密度较高,每台服务器独立供电、工作。机房服务器实际工作中,主要由服务器基板管理控制器监控系统工作状态,如服务器工作告警,基板管理控制器会记录告警内容并由基板管理控制器通信端口通过网线通信传输到前端监控界面,机房维护人员通过解析基板管理控制器反馈日志来判定故障原因。但基板管理控制器监控日志只能抓取系统部件的异常告警值,由异常告警初步解析出故障原因后无法及时现场验证故障部件状态,影响故障最终判定准确性。针对每个异常告警值如维护人员都机房现场服务器停机检测,会极大影响服务器运行持续性及安全性,且人员频繁进出机房会增加机房安全隐患。
另外,数据中心机房服务器数量较多,每台服务器所包含的部件众多,部件故障引起的服务器工作异常问题经常发生。这就要求数据中心机房需要较多维护技术人员来处理机房服务器异常状况,极大增加人力成本,且机房内服务器部件更换需工程人员逗留机房较长时间,破坏机房稳态工作环境,增加机房运行安全隐患。
发明内容
本发明主要解决的技术问题是提供一种数据中心机房服务器远程监测与检修的系统和方法,能够解决服务器故障判断准确性问题,服务器发生故障时,维修人员在机房停留时间过久,影响服务器机房的稳态和增加服务器机房的安全隐患,并且机房内服务器众多,机房需要大量的维修人员,机房维护需要增加大量的人员成本。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种数据中心机房服务器远程监测与检修系统,与主、副服务器相连,其特征在于,所述系统包括:服务器监控部分、数据交互部分、服务器异常诊断部分和服务器维修部分;
所述服务器监控部分用于对主服务器进行监测、判决和副服务器使能;
所述数据交互部分用于各个部分的无线数据中转承载;
所述服务器异常诊断部分用于主服务器异常时的现场分析、等级划分、判决执行和定位;
所述服务器维修部分对异常的主服务器进行检测、数据采集和执行解决方案。
进一步,所述服务器监控部分包括基板管理控制器和状态在线监控模块;所述数据交互部分包括路由器后台管理中心;所述服务器异常诊断部分包括数据中心机房控制系统和服务器监测与检修系统;所述服务器维修部分包括机房轨道自动化检修平台、监测单元和检修单元。
进一步,所述基板管理控制器分别与主、副服务器和所述状态在线监控模块相连;所述状态在线监控模块与主服务器相连;所述路由器后台管理中心通过无线方式与所述监测单元、检修单元、服务器监测与检修系统、数据中心机房管理控制系统和状态在线监控模块相连;所述服务器监测与检修系统与机房轨道自动化检修平台相连;所述机房轨道自动化检修平台分别与检修单元和监测单元相连。
进一步,所述基板管理控制器同时控制主、副服务器,主服务器发生故障进行停机检修时,基板管理控制器使能副服务器接替主服务器所有业务。
进一步,所述监测单元包括可伸缩式探测手臂,可伸缩式探测手臂上设有机器视觉装置和传感器,在主服务器发生故障时可伸缩式探测手臂对故障部件进行拍照、视频、温度、烟雾和气味监测;所述检修单元设有拖拉装置,检修单元通过拖拉装置拖出发生故障的主服务器并将其放置在指定地点。
一种数据中心机房服务器远程监测与检修方法,包括:
服务器监控部分获取主服务器各个部件参数并进行内部自校验,校验成功的异常信号通过数据交互部分传输给服务器异常诊断部分;
服务器异常诊断部分根据异常信号评估异常等级,异常等级达到需要监控等级,服务器异常诊断部分下发监控指令;服务器维修部分根据监控指令以及异常信号对异常的主服务器进行现场数据采集并反馈给服务器异常诊断部分;
服务器异常诊断部分根据现场数据制定解决方案,若解决方案为故障部件更换或整机维修,则服务器维修部分移动到待维修的主服务器位置待机,同时服务器异常诊断部分命令副服务器接替主服务器业务,主服务器关机后,服务器维修部分将待维修的主服务器拖出,待维修服务器维修完成后,再由服务器维修部分将主服务器运回到初始位置。
进一步,所述服务器监控部分的基板管理控制器抓取主服务器内各个部件参数,并与规格值进行对比,若参数值出现异常,基板管理控制器显示部件异常信号,并将信号传输到状态在线监控模块;状态在线监控模块接收到异常信号后并读取主服务器的状态参数,若与基板管理控制器异常信号不一致,则状态在线监控模块命令基板管理控制器重新读取异常信号对应的部件参数并反馈,若与基板管理控制器异常信号一致,则确定异常信号正确并将异常信号传送到路由器后台管理中心。
进一步,所述服务器维修系统与路由器后台管理中心进行无线的信息交互,所述服务器维修系统储存有机房内所有主、副服务器位置信息,可根据异常信号对故障的主服务器寻址。
本发明的有益效果是:本发明通过引入路由器后台管理中心、服务器状态在线监控模块、监测单元和检修单元,实现了故障检验,远程检修和监测,减少了机房维护的人力开销,提升了故障报错的准确力,避免服务器故障维修人员现场确认对机房稳态造成破坏。
附图说明
图1是本发明一种数据中心机房服务器远程监测与检修系统的结构拓扑图;
图2是本发明一种数据中心机房服务器远程监测与检修方法的流程图。
附图中各部件标记如下:1、基板管理控制器;2、状态在线监控模块;3、路由器后台管理中心;4、数据中心机房控制系统;5、服务器监测与检修系统;6、机房轨道自动化检修平台;7、监测单元;8、检修平台、9轨道;10、服务器监控部分;11、数据交互部分;12、服务器异常诊断部分;13、服务器维护部分。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
请参阅图1,本发明实施例包括:
一种数据中心机房服务器远程监测与检修系统,与主、副服务器相连,系统包括:服务器监控部分10、数据交互部分11、服务器异常诊断部分12和服务器维修部分13;
所述服务器监控部分10包括基板管理控制器1和状态在线监控模块2,服务器监控部分10用于服务器异常监测、判别、副服务器使能;
所述数据交互部分11包括路由器后台管理中心3,数据交互部分11用于无线数据的相互连通;
所述服务器异常诊断部分12包括数据中心机房控制系统4和服务器监测与检修系统5,服务器异常诊断部分12用于主服务器异常的现场分析、等级划分和判决执行;
所述服务器维修部分13包括机房轨道自动化检修平台6、监测单元7和检修单元8,服务器监测检修部分13用于主服务器异常的检测、数据采集和解决;
所述基板管理控制器1分别与主副服务器和状态在线监控模块2相连,状态在线监控模块2与主服务器相连;路由器后台管理中心3通过无线方式与监测单元6、检修单元7、服务器监测与检修系统5、数据中心机房控制系统4和状态在线监控模块2相连;服务器监测与检修系统5与机房轨道自动化检修平台6相连;机房轨道自动化检修平台6分别与检修单元8和监测单元7相连,检修单元8与检测单元7通过轨道9执行相应命令。
请参阅图2,一种数据中心机房服务器远程监测与检修方法,包括:
服务器传感器将主服务器各个部件参数传输给基板管理控制器,基板管理控制器将参数与规格值进行对比,若参数值出现异常,基板管理控制器1则显示部件告警并传输到状态在线监控模块;
状态在线监控模块接收到告警指示后读取主服务器的状态参数,若与基板管理控制器告警指示不一致,则命令基板管理控制器重新读取参数并反馈,若与基板管理控制器告警指示一致,则确定告警指示正确并将告警指令传送到路由器后台管理中心;
路由器后台管理中心将告警指令传送到数据中心机房控制系统,机房管理人员通过可视化界面查看此异常信息,判断此异常是否需要管控,并评估告警指示等级,若告警指示等级达到需要管控的阈值,机房管理人员下发监测指令,监测指令通过路由器后台管理中心传送到服务器监测与检修系统;
服务器监测与检修系统与路由器后台管理中心可以进行无线的信息交互,服务器监测与检修系统储存有机房内所有主、副服务器位置信息,可根据告警指示对故障的主服务器寻址;服务器监测与检修系统接受监测指令并定位故障的主服务器部件准确位置,通过无线传输将故障的主服务器信息下发到机房轨道自动化检修平台,机房轨道自动化检修平台控制监测单元移动至故障的主服务器位置,监测单元通过可伸缩探测手臂对主服务器内部故障位置进行拍照、视频、温度、烟雾和气味数据采集,监测单元将采集的数据经路由器后台管理中心传送到数据中心机房控制系统;
机房管理人员通过可视化界面查看数据并制定解决方案,若最终解决方案为故障部件更换或整机维修,则机房管理人员下发换机指令经路由器后台管理中心到机房轨道自动化检修平台,机房轨道自动化检修平台根据机房管理人员换机指令控制检修单元到故障的主服务器位置待机;
路由器后台管理中心接收到机房管理人员换机指令,将换机指令经状态在线监控模块传送到基板管理控制器,基板管理控制器使能副服务器替换故障的主服务器,并将故障的主服务器关机,副服务器承接故障的主服务器所有业务;
检修单元接收到故障的主服务器已关机的指令后,通过拖拉装置执行故障的主服务器运回命令,将故障的主服务器运送到指令检修地点,检修人员将故障的主服务器经检修完成后放置在检修单元上,检修单元将故障的主服务器运回初始位置。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种数据中心机房服务器远程监测与检修系统,与主、副服务器相连,其特征在于,所述系统包括:服务器监控部分、数据交互部分、服务器异常诊断部分和服务器维修部分;
所述服务器监控部分用于对主服务器进行监测、判决和副服务器使能;
所述数据交互部分用于各个部分的无线数据中转承载;
所述服务器异常诊断部分用于主服务器异常时的现场分析、等级划分、判决执行和定位;
所述服务器维修部分对异常的主服务器进行检测、数据采集和执行解决方案。
2.根据权利要求1所述的一种数据中心机房服务器远程监测与检修的系统,其特征在于,所述服务器监控部分包括基板管理控制器和状态在线监控模块;所述数据交互部分包括路由器后台管理中心;所述服务器异常诊断部分包括数据中心机房控制系统和服务器监测与检修系统;所述服务器维修部分包括机房轨道自动化检修平台、监测单元和检修单元。
3.根据权利要求2所述的一种数据中心机房服务器远程监测与检修系统,其特征在于,所述基板管理控制器分别与主、副服务器和所述状态在线监控模块相连;所述状态在线监控模块与主服务器相连;所述路由器后台管理中心通过无线方式与所述监测单元、检修单元、服务器监测与检修系统、数据中心机房管理控制系统和状态在线监控模块相连;所述服务器监测与检修系统与机房轨道自动化检修平台相连;所述机房轨道自动化检修平台分别与检修单元和监测单元相连。
4.根据权利要求3所述的一种数据中心机房服务器远程监测与检修系统,其特征在于,所述基板管理控制器同时控制主、副服务器,主服务器发生故障进行停机检修时,基板管理控制器使能副服务器接替主服务器所有业务。
5.根据权利要求3所述的一种数据中心机房服务器远程监测与检修系统,其特征在于,所述监测单元包括可伸缩式探测手臂,可伸缩式探测手臂上设有机器视觉装置和传感器,在主服务器发生故障时可伸缩式探测手臂对故障部件进行拍照、视频、温度、烟雾和气味监测;所述检修单元设有拖拉装置,检修单元通过拖拉装置拖出发生故障的主服务器并将其放置在指定地点。
6.一种数据中心机房服务器远程监测与检修方法,其特征在于,包括:
服务器监控部分获取主服务器各个部件参数并进行内部自校验,校验成功的异常信号通过数据交互部分传输给服务器异常诊断部分;
服务器异常诊断部分根据异常信号评估异常等级,异常等级达到需要监控等级,服务器异常诊断部分下发监控指令;服务器维修部分根据监控指令以及异常信号对异常的主服务器进行现场数据采集并反馈给服务器异常诊断部分;
服务器异常诊断部分根据现场数据制定解决方案,若解决方案为故障部件更换或整机维修,则服务器维修部分移动到待维修的主服务器位置待机,同时服务器异常诊断部分命令副服务器接替主服务器业务,主服务器关机后,服务器维修部分将待维修的主服务器拖出,待维修服务器维修完成后,再由服务器维修部分将主服务器运回到初始位置。
7.根据权利要求6所述的一种数据中心机房服务器远程监测与检修方法,其特征在于,所述服务器监控部分的基板管理控制器抓取主服务器内各个部件参数,并与规格值进行对比,若参数值出现异常,基板管理控制器显示部件异常信号,并将信号传输到状态在线监控模块;状态在线监控模块接收到异常信号后并读取主服务器的状态参数,若与基板管理控制器异常信号不一致,则状态在线监控模块命令基板管理控制器重新读取异常信号对应的部件参数并反馈,若与基板管理控制器异常信号一致,则确定异常信号正确并将异常信号传送到路由器后台管理中心。
8.根据权利要求7所述的一种数据中心机房服务器远程监测与检修方法,其特征在于,所述服务器维修系统与路由器后台管理中心进行无线的信息交互,所述服务器维修系统储存有机房内所有主、副服务器位置信息,可根据异常信号对故障的主服务器寻址。
CN202011280192.8A 2020-11-16 2020-11-16 一种数据中心机房服务器远程监测与检修系统和方法 Pending CN112445680A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011280192.8A CN112445680A (zh) 2020-11-16 2020-11-16 一种数据中心机房服务器远程监测与检修系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011280192.8A CN112445680A (zh) 2020-11-16 2020-11-16 一种数据中心机房服务器远程监测与检修系统和方法

Publications (1)

Publication Number Publication Date
CN112445680A true CN112445680A (zh) 2021-03-05

Family

ID=74737493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011280192.8A Pending CN112445680A (zh) 2020-11-16 2020-11-16 一种数据中心机房服务器远程监测与检修系统和方法

Country Status (1)

Country Link
CN (1) CN112445680A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115883331A (zh) * 2023-02-21 2023-03-31 中国市政工程西南设计研究总院有限公司 用于设计单位的通信设备故障监控系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN204231378U (zh) * 2014-10-13 2015-03-25 国家电网公司 电力系统快速信息状态检修与服务系统
CN105100732A (zh) * 2015-08-26 2015-11-25 深圳市银之杰科技股份有限公司 一种机房服务器远程监控方法及系统
CN109955242A (zh) * 2017-12-25 2019-07-02 广州供电局有限公司 巡维机器人控制方法、装置、计算机设备以及存储介质
CN109968322A (zh) * 2019-04-24 2019-07-05 苏州云骐智能科技有限公司 一种数据服务器自动运送机器人及其应用系统控制方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN204231378U (zh) * 2014-10-13 2015-03-25 国家电网公司 电力系统快速信息状态检修与服务系统
CN105100732A (zh) * 2015-08-26 2015-11-25 深圳市银之杰科技股份有限公司 一种机房服务器远程监控方法及系统
CN109955242A (zh) * 2017-12-25 2019-07-02 广州供电局有限公司 巡维机器人控制方法、装置、计算机设备以及存储介质
CN109968322A (zh) * 2019-04-24 2019-07-05 苏州云骐智能科技有限公司 一种数据服务器自动运送机器人及其应用系统控制方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115883331A (zh) * 2023-02-21 2023-03-31 中国市政工程西南设计研究总院有限公司 用于设计单位的通信设备故障监控系统
CN115883331B (zh) * 2023-02-21 2023-05-30 中国市政工程西南设计研究总院有限公司 用于设计单位的通信设备故障监控系统

Similar Documents

Publication Publication Date Title
CN102354329B (zh) 带电设备红外数据库智能诊断管理系统
CN104639587A (zh) 一种基于物联网的机器人故障监控系统及方法
CN108053041B (zh) 变电站多关联场景下二次系统异常识别和防误系统及方法
CN111522329A (zh) 一种工业机器人故障诊断方法
WO2022222812A1 (zh) 一种变配电参数综合监测及故障排除的设备及方法
CN113052993A (zh) 一种基于告警信息联动的故障巡检方法及装置
CN107516414A (zh) 一种用电信息采集系统故障诊断分析方法及系统
CN115826563A (zh) 一种基于plc机柜的远程故障监测系统及方法
CN116824731A (zh) 一种火电厂智能巡检方法和设备
CN112445680A (zh) 一种数据中心机房服务器远程监测与检修系统和方法
KR102021431B1 (ko) 계장 제어 설비 원격 감시 제어 시스템
CN117215940A (zh) 智慧运维应急处理系统
CN115237719A (zh) 一种服务器电源可靠性的预警方法及系统
KR102316472B1 (ko) 제어 출력신호를 통한 기기의 건전성 지수 검출방법
CN111915205A (zh) 基于智能调度的复杂装备健康自动巡检方法及系统
CN110737256B (zh) 一种用于控制变频传动系统的方法及装置
CN104753734B (zh) 一种自动诊断电网ems系统遥信数据传输故障的方法
CN116414086A (zh) 基于fmeda失效预测技术集成安全控制系统的装置
CN112101758A (zh) 基于人工智能的制衣厂生产异常决策系统及方法
CN212484153U (zh) 一种站台门智能运维系统
CN115366958B (zh) 一种自诊断方法、系统及数据管理系统
CN117168865B (zh) 一种机电设备保护系统
CN215615717U (zh) 一种钢轨闪光焊接装备状态监测及健康管理装置
EP4121985A1 (en) System and method for continous diagnostics of railway infrastructure
Zhou et al. Fault Diagnosis for Tray Loader Machine of Power Battery Based on Fault Tree Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination