CN110750427A - 一种数据中心设备巡检方法及系统 - Google Patents

一种数据中心设备巡检方法及系统 Download PDF

Info

Publication number
CN110750427A
CN110750427A CN201911206150.7A CN201911206150A CN110750427A CN 110750427 A CN110750427 A CN 110750427A CN 201911206150 A CN201911206150 A CN 201911206150A CN 110750427 A CN110750427 A CN 110750427A
Authority
CN
China
Prior art keywords
information
work order
data center
fault
running state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911206150.7A
Other languages
English (en)
Inventor
居静
王剑
宋婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi Xintong Operation And Maintenance Service Co ltd
Original Assignee
Wright Star Ming Data Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wright Star Ming Data Co Ltd filed Critical Wright Star Ming Data Co Ltd
Priority to CN201911206150.7A priority Critical patent/CN110750427A/zh
Publication of CN110750427A publication Critical patent/CN110750427A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种数据中心设备巡检方法及系统,所述方法应用于数据中心网络中,所述方法包括:检测数据中心设备的运行状态信息,根据所述运行状态信息,生成故障现象工单;确定执行所述故障现象工单的运维管理人员信息,并根据所述运维管理人员信息传送所述故障现象工单;接收所述故障现象工单,并记录执行所述故障现象工单后的巡检信息。采用本发明,解决了运维管理人员在维护数据中心设备的同时无法实时检测数据中心设备运行状态,且效率较低的问题,实现信息互联、运维管理人员实时调派、故障工况实时处理的功能。

Description

一种数据中心设备巡检方法及系统
技术领域
本发明涉及网络信息技术领域,特别涉及一种数据中心设备巡检方法及系统。
背景技术
目前,IT运维管理人员需要通过手机反馈数据中心设备的运行状态,再由接班人员对运行状态进行统计,统计的工作量特别大。
IT运维管理人员只有在实际使用数据中心设备或者用户使用数据中心设备上报的过程中才可以根据上述统计出的运行状态数据,得知数据中心设备的异常,然后再查询异常的数据中心设备,对比异常之处,并人工录入数据库。因此,整个数据中心设备的管理方式较为滞后,导致效率较低,而且还会影响数据中心设备的正常使用。
发明内容
本申请的目的在于解决运维管理人员在维护数据中心设备的同时无法实时检测数据中心设备运行状态,且效率较低的问题。
为实现上述目的,本发明实施例提供了一种数据中心设备巡检方法及系统。所述技术方案如下:
一方面,一种数据中心设备巡检方法,所述方法应用于数据中心网络中,所述方法包括:
检测数据中心设备的运行状态信息,根据所述运行状态信息,生成故障现象工单;
确定执行所述故障现象工单的运维管理人员信息,并根据所述运维管理人员信息传送所述故障现象工单;
接收所述故障现象工单,并记录执行所述故障现象工单后的巡检信息。
进一步的,根据所述运行状态信息,生成故障现象工单的具体步骤包括:
确定所述运行状态信息中的异常信息;
针对所述异常信息,生成故障现象工单。
进一步的,确定所述运行状态信息中的异常信息的具体步骤包括:
根据所述运行状态信息,区分所述运行状态信息的正常信息和异常信息。
进一步的,针对所述异常信息,生成故障现象工单的具体步骤包括:
确定与所述异常信息对应的异常数据中心设备,获取所述异常数据中心设备的设备信息;
根据所述设备信息,生成所述故障现象工单。
进一步的,所述方法还包括:
对所述巡检信息进行存储、统计、分类。
另一方面,一种数据中心设备巡检系统,所述系统应用于数据中心网络中,所述系统包括外接设备、服务器、管理端、客户端。
所述外接设备,用于检测数据中心设备的运行状态信息,将所述运行状态信息发送至所述服务器;
所述服务器,用于根据所述运行状态信息,生成故障现象工单,将所述故障现象工单发送至所述管理端;
所述管理端,用于确定执行所述故障现象工单的运维管理人员信息,并将所述运维管理人员信息发送至所述服务器。
所述服务器,还用于根据所述运维管理人员信息将所述故障现象工单传送至所述客户端;
所述客户端,用于接收所述故障现象工单,并记录执行所述故障现象工单后的巡检信息。
进一步的,所述服务器还用于:
确定所述运行状态信息中的异常信息;
针对所述异常信息,生成故障现象工单。
进一步的,所述服务器还用于:
根据所述运行状态信息,区分所述运行状态信息的正常信息和异常信息。
进一步的,所述服务器还用于:
确定与所述异常信息对应的异常数据中心设备,获取所述异常数据中心设备的设备信息;
根据所述设备信息,生成所述故障现象工单。
进一步的,所述服务器还用于:
对所述巡检信息进行存储、统计、分类。
本发明实施例提供的技术方案带来的有益效果是:通过一种数据中心巡检方法及系统,解决了运维管理人员在维护数据中心设备的同时无法实时检测数据中心设备运行状态,且效率较低的问题,实现信息互联、运维管理人员实时调派、故障工况实时处理的功能。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明中一种数据中心设备巡检方法流程图;
图2是本发明中一种数据中心设备巡检系统示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种数据中心设备巡检方法,所述方法应用于如图2所示的数据中心网络中,数据中心网络包括外接设备、服务器、管理端、客户端。数据中心设备巡检方法包括以下步骤:
101:检测数据中心设备的运行状态信息,根据所述运行状态信息,生成故障现象工单。
在实施中,当服务器在运维任务的检测功能开启时,外接设备实时检测数据中心设备的运行状态信息,并将运行状态信息发送至服务器,运行状态信息包括正常信息和异常信息,异常信息包括内存标志报警信息、主板故障信息、关机状态信息、数据中心设备关机操作记录信息、电源模块故障信息、硬盘告警信息、高温告警信息。具体的,结合内存灯和故障状态灯说明异常信息:
内存标志报警或者主板故障,数据中心设备的内存灯显示黄色,原因有两个方面,一方面是ECC内存校验错误,另一方面是CPU在某个时间内未读取到内存数据。运维管理人员可以对数据中心设备进行关机,关机后清除报错日志,数据中心设备重启后,换位置重新插内存,如果黄色灯的位置跟随内存移动说明内存故障,反之则是主板故障。
关机状态或者电源模块故障,表现为内存灯灭或者故障状态灯灭。
数据中心设备关机操作记录,维修人员或者运维管理人员或者其他人员对数据中心设备的关机操作会被记录下来。
硬盘告警,外接设备通过进入阵列卡的BIOS程序查看硬盘状态。当故障状态灯灭时,表示硬盘未供电;当故障状态灯显示琥珀色闪烁时,表示硬盘出现错误;当故障状态灯显示蓝色长亮时,表示硬盘正常工作。
高温告警,出现此状态的原因有四个方面,一方面是网络服务器机柜发热密度过高、散热不良,造成局部过热,另一方面是机房空调制冷量不足,再一方面是数据中心设备的制冷设备异常停机,最后一方面是制冷设备因为异常断电重新恢复供电后不能自动启动,而数据中心设备的其他设备仍然由不间断电源供电,并正常运行发热。
在实施中,服务器根据运行状态信息,区分运行状态信息的正常信息和异常信息。确定与异常信息对应的异常数据中心设备,获取异常数据中心设备的设备信息,根据设备信息,生成故障现象工单。
具体的,服务器接收外接设备上传的运行状态信息,获取运行状态信息中各个监测类别的监测信息,确定监测类别中的正常信息,通过各个监测类别的监测信息以及正常信息,即可判断各个监测类别是否正常,若某一项监测类别存在异常信息,服务器则生成与异常信息的监测类别对应的故障现象工单。服务器在生成故障现象工单时,确定与异常信息对应的异常数据中心设备,获取异常数据中心设备的位置信息,并将位置信息记录在故障现象工单中,服务器将故障现象工单发送至管理端。
102:确定执行所述故障现象工单的运维管理人员信息,并根据所述运维管理人员信息传送所述故障现象工单。
在实施中,管理端接收服务器发送的故障现象工单,分析所述故障现象工单中的故障信息,分析运维管理人员的工作饱和度,根据所述故障信息和所述工作饱和度,确定执行故障现象工单的运维管理人员信息。管理端将运维管理人员信息发送至服务器。服务器根据运维管理人员信息,将故障现象工单发送至与运维管理人员信息相对应的客户端上,这样,运维管理人员通过客户端就可以接收并查看故障现象工单。
103:接收所述故障现象工单,并记录执行所述故障现象工单后的巡检信息。
在实施中,运维管理人员根据故障现象工单可以查看到异常数据中心设备的位置信息,以便查找到异常数据中心设备,对异常数据中心设备进行故障处理并将故障处理信息记录在客户端中形成巡检信息,运维管理人员可以利用客户端将巡检信息上传至服务器,服务器将巡检信息写入数据库,对巡检信息进行存储、统计、分类,数据库包括数据中心设备信息表、实时巡检信息表、历史巡检信息表,后期数据中心设备的维护过程中,运维管理人员只需查看数据库就可了解数据中心设备的状态,提高了数据中心设备的运维管理能力。
如图2所示,本发明实施例提供了一种数据中心设备巡检系统,所述系统应用于数据中心网络中,所述系统包括外接设备、服务器、管理端、客户端。
所述外接设备,用于检测数据中心设备的运行状态信息,将所述运行状态信息发送至所述服务器;
所述服务器,用于根据所述运行状态信息,生成故障现象工单,将所述故障现象工单发送至所述管理端;
所述管理端,用于确定执行所述故障现象工单的运维管理人员信息,并将所述运维管理人员信息发送至所述服务器。
所述服务器,还用于根据所述运维管理人员信息将所述故障现象工单传送至所述客户端;
所述客户端,用于接收所述故障现象工单,并记录执行所述故障现象工单后的巡检信息。
进一步的,所述服务器还用于:
确定所述运行状态信息中的异常信息;
针对所述异常信息,生成故障现象工单。
进一步的,所述服务器还用于:
根据所述运行状态信息,区分所述运行状态信息的正常信息和异常信息。
进一步的,所述服务器还用于:
确定与所述异常信息对应的异常数据中心设备,获取所述异常数据中心设备的设备信息
根据所述设备信息,生成所述故障现象工单。
进一步的,所述服务器还用于:
对所述巡检信息进行存储、统计、分类。
由上可见,通过一种数据中心巡检方法及系统,解决了运维管理人员在维护数据中心设备的同时无法实时检测数据中心设备运行状态,且效率较低的问题,实现信息互联、运维管理人员实时调派、故障工况实时处理的功能。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据中心设备巡检方法,其特征在于,所述方法应用于数据中心网络中,所述方法包括:
检测数据中心设备的运行状态信息,根据所述运行状态信息,生成故障现象工单;
确定执行所述故障现象工单的运维管理人员信息,并根据所述运维管理人员信息传送所述故障现象工单;
接收所述故障现象工单,并记录执行所述故障现象工单后的巡检信息。
2.根据权利要求1所述的方法,其特征在于,根据所述运行状态信息,生成故障现象工单的具体步骤包括:
确定所述运行状态信息中的异常信息;
针对所述异常信息,生成故障现象工单。
3.根据权利要求2所述的方法,其特征在于,确定所述运行状态信息中的异常信息的具体步骤包括:
根据所述运行状态信息,区分所述运行状态信息的正常信息和异常信息。
4.根据权利要求2所述的方法,其特征在于,针对所述异常信息,生成故障现象工单的具体步骤包括:
确定与所述异常信息对应的异常数据中心设备,获取所述异常数据中心设备的设备信息;
根据所述设备信息,生成所述故障现象工单。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述巡检信息进行存储、统计、分类。
6.一种数据中心设备巡检系统,其特征在于,所述系统应用于数据中心网络中,所述系统包括外接设备、服务器、管理端、客户端。
所述外接设备,用于检测数据中心设备的运行状态信息,将所述运行状态信息发送至所述服务器;
所述服务器,用于根据所述运行状态信息,生成故障现象工单,将所述故障现象工单发送至所述管理端;
所述管理端,用于确定执行所述故障现象工单的运维管理人员信息,并将所述运维管理人员信息发送至所述服务器。
所述服务器,还用于根据所述运维管理人员信息将所述故障现象工单传送至所述客户端;
所述客户端,用于接收所述故障现象工单,并记录执行所述故障现象工单后的巡检信息。
7.根据权利要求6所述的系统,其特征在于,所述服务器还用于:
确定所述运行状态信息中的异常信息;
针对所述异常信息,生成故障现象工单。
8.根据权利要求7所述的系统,其特征在于,所述服务器还用于:
根据所述运行状态信息,区分所述运行状态信息的正常信息和异常信息。
9.根据权利要求7所述的系统,其特征在于,所述服务器还用于:
确定与所述异常信息对应的异常数据中心设备,获取所述异常数据中心设备的设备信息;
根据所述设备信息,生成所述故障现象工单。
10.根据权利要求6所述的系统,其特征在于,所述服务器还用于:
对所述巡检信息进行存储、统计、分类。
CN201911206150.7A 2019-11-29 2019-11-29 一种数据中心设备巡检方法及系统 Pending CN110750427A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911206150.7A CN110750427A (zh) 2019-11-29 2019-11-29 一种数据中心设备巡检方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911206150.7A CN110750427A (zh) 2019-11-29 2019-11-29 一种数据中心设备巡检方法及系统

Publications (1)

Publication Number Publication Date
CN110750427A true CN110750427A (zh) 2020-02-04

Family

ID=69285202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911206150.7A Pending CN110750427A (zh) 2019-11-29 2019-11-29 一种数据中心设备巡检方法及系统

Country Status (1)

Country Link
CN (1) CN110750427A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113438113A (zh) * 2021-06-25 2021-09-24 树根互联股份有限公司 基于物联网的设备运行异常的监测维护方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170352010A1 (en) * 2016-06-02 2017-12-07 Doosan Heavy Industries & Construction Co., Ltd. Wind farm supervision monitoring system
CN110112825A (zh) * 2019-04-19 2019-08-09 中电鼎润(广州)电力科技发展有限责任公司 电网设备在线监测方法、服务器及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170352010A1 (en) * 2016-06-02 2017-12-07 Doosan Heavy Industries & Construction Co., Ltd. Wind farm supervision monitoring system
CN110112825A (zh) * 2019-04-19 2019-08-09 中电鼎润(广州)电力科技发展有限责任公司 电网设备在线监测方法、服务器及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113438113A (zh) * 2021-06-25 2021-09-24 树根互联股份有限公司 基于物联网的设备运行异常的监测维护方法及系统

Similar Documents

Publication Publication Date Title
CN110224858B (zh) 基于日志的告警方法及相关装置
CN101809373B (zh) 设备监视装置及远程监视系统
CN103905255A (zh) 服务器内部硬件运行故障远程自动告警系统及方法
CN105450472A (zh) 一种自动获取服务器物理部件状态的方法及装置
KR20070068867A (ko) 멀티에어컨 통합관리 시스템 및 그의 에러관리방법
CN106100884A (zh) 变电站监控设备运行异常的告警方法
CN114154035A (zh) 一种动环监控的数据处理系统
CN105119746A (zh) 一种基于rmc管理的smartrack整机柜服务器配置智能监控的方法
CN116126772A (zh) 一种应用于arm服务器的uart串口管理系统及方法
TW201516672A (zh) 伺服器監控系統及方法
CN106095638A (zh) 一种服务器资源告警的方法、装置及系统
CN110750427A (zh) 一种数据中心设备巡检方法及系统
CN110445694A (zh) 一种基于Zabbix监控触发通知的方法
CN110647417A (zh) 能源互联网异常数据处理方法、装置及系统
CN109460311A (zh) 固件异常状态的管理方法和装置
CN113176982A (zh) 一种基于vpx架构机箱管理系统的实现装置及方法
CN110943863A (zh) 一种数据中心
CN111338891A (zh) 一种风扇稳定性测试方法及装置
CN117411804A (zh) 服务器网络测试方法、装置、电子设备及存储介质
JP2010147804A (ja) 伝送装置と伝送装置に実装されるユニット
CN112272098A (zh) 一种实现bmc独立供电的设计方法、系统
CN109412872B (zh) 一种用于传统设备的远程监控装置
CN116381479A (zh) 状态监测方法、装置、计算机设备、存储介质和程序产品
CN110990226A (zh) 数据中心设备巡检方法及服务器、计算机可读存储介质
CN115080360A (zh) 一种液冷服务器检测的方法、装置、设备及可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230413

Address after: Room 401, Office Building, No.1 Rong Street, Equipment Manufacturing Industrial Park, Datong Economic and Technological Development Zone, Datong City, Shanxi Province, 037000

Applicant after: Shanxi Xintong Operation and Maintenance Service Co.,Ltd.

Address before: 075400 village committee yard of Huangying village, sangyuan Town, Huailai County, Zhangjiakou City, Hebei Province

Applicant before: Wright Star Ming Data Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20200204

RJ01 Rejection of invention patent application after publication