CN110750427A

CN110750427A - 一种数据中心设备巡检方法及系统

Info

Publication number: CN110750427A
Application number: CN201911206150.7A
Authority: CN
Inventors: 居静; 王剑; 宋婧
Original assignee: Wright Star Ming Data Co Ltd
Current assignee: Shanxi Xintong Operation And Maintenance Service Co ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2020-02-04

Abstract

本发明公开了一种数据中心设备巡检方法及系统，所述方法应用于数据中心网络中，所述方法包括：检测数据中心设备的运行状态信息，根据所述运行状态信息，生成故障现象工单；确定执行所述故障现象工单的运维管理人员信息，并根据所述运维管理人员信息传送所述故障现象工单；接收所述故障现象工单，并记录执行所述故障现象工单后的巡检信息。采用本发明，解决了运维管理人员在维护数据中心设备的同时无法实时检测数据中心设备运行状态，且效率较低的问题，实现信息互联、运维管理人员实时调派、故障工况实时处理的功能。

Description

一种数据中心设备巡检方法及系统

技术领域

本发明涉及网络信息技术领域，特别涉及一种数据中心设备巡检方法及系统。

背景技术

目前，IT运维管理人员需要通过手机反馈数据中心设备的运行状态，再由接班人员对运行状态进行统计，统计的工作量特别大。

IT运维管理人员只有在实际使用数据中心设备或者用户使用数据中心设备上报的过程中才可以根据上述统计出的运行状态数据，得知数据中心设备的异常，然后再查询异常的数据中心设备，对比异常之处，并人工录入数据库。因此，整个数据中心设备的管理方式较为滞后，导致效率较低，而且还会影响数据中心设备的正常使用。

发明内容

本申请的目的在于解决运维管理人员在维护数据中心设备的同时无法实时检测数据中心设备运行状态，且效率较低的问题。

为实现上述目的，本发明实施例提供了一种数据中心设备巡检方法及系统。所述技术方案如下：

一方面，一种数据中心设备巡检方法，所述方法应用于数据中心网络中，所述方法包括：

检测数据中心设备的运行状态信息，根据所述运行状态信息，生成故障现象工单；

确定执行所述故障现象工单的运维管理人员信息，并根据所述运维管理人员信息传送所述故障现象工单；

接收所述故障现象工单，并记录执行所述故障现象工单后的巡检信息。

进一步的，根据所述运行状态信息，生成故障现象工单的具体步骤包括：

确定所述运行状态信息中的异常信息；

针对所述异常信息，生成故障现象工单。

进一步的，确定所述运行状态信息中的异常信息的具体步骤包括：

根据所述运行状态信息，区分所述运行状态信息的正常信息和异常信息。

进一步的，针对所述异常信息，生成故障现象工单的具体步骤包括：

确定与所述异常信息对应的异常数据中心设备，获取所述异常数据中心设备的设备信息；

根据所述设备信息，生成所述故障现象工单。

进一步的，所述方法还包括：

对所述巡检信息进行存储、统计、分类。

另一方面，一种数据中心设备巡检系统，所述系统应用于数据中心网络中，所述系统包括外接设备、服务器、管理端、客户端。

所述外接设备，用于检测数据中心设备的运行状态信息，将所述运行状态信息发送至所述服务器；

所述服务器，用于根据所述运行状态信息，生成故障现象工单，将所述故障现象工单发送至所述管理端；

所述管理端，用于确定执行所述故障现象工单的运维管理人员信息，并将所述运维管理人员信息发送至所述服务器。

所述服务器，还用于根据所述运维管理人员信息将所述故障现象工单传送至所述客户端；

所述客户端，用于接收所述故障现象工单，并记录执行所述故障现象工单后的巡检信息。

进一步的，所述服务器还用于：

确定所述运行状态信息中的异常信息；

针对所述异常信息，生成故障现象工单。

进一步的，所述服务器还用于：

根据所述设备信息，生成所述故障现象工单。

进一步的，所述服务器还用于：

对所述巡检信息进行存储、统计、分类。

本发明实施例提供的技术方案带来的有益效果是：通过一种数据中心巡检方法及系统，解决了运维管理人员在维护数据中心设备的同时无法实时检测数据中心设备运行状态，且效率较低的问题，实现信息互联、运维管理人员实时调派、故障工况实时处理的功能。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明中一种数据中心设备巡检方法流程图；

图2是本发明中一种数据中心设备巡检系统示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种数据中心设备巡检方法，所述方法应用于如图2所示的数据中心网络中，数据中心网络包括外接设备、服务器、管理端、客户端。数据中心设备巡检方法包括以下步骤：

101：检测数据中心设备的运行状态信息，根据所述运行状态信息，生成故障现象工单。

在实施中，当服务器在运维任务的检测功能开启时，外接设备实时检测数据中心设备的运行状态信息，并将运行状态信息发送至服务器，运行状态信息包括正常信息和异常信息，异常信息包括内存标志报警信息、主板故障信息、关机状态信息、数据中心设备关机操作记录信息、电源模块故障信息、硬盘告警信息、高温告警信息。具体的，结合内存灯和故障状态灯说明异常信息：

内存标志报警或者主板故障，数据中心设备的内存灯显示黄色，原因有两个方面，一方面是ECC内存校验错误，另一方面是CPU在某个时间内未读取到内存数据。运维管理人员可以对数据中心设备进行关机，关机后清除报错日志，数据中心设备重启后，换位置重新插内存，如果黄色灯的位置跟随内存移动说明内存故障，反之则是主板故障。

关机状态或者电源模块故障，表现为内存灯灭或者故障状态灯灭。

数据中心设备关机操作记录，维修人员或者运维管理人员或者其他人员对数据中心设备的关机操作会被记录下来。

硬盘告警，外接设备通过进入阵列卡的BIOS程序查看硬盘状态。当故障状态灯灭时，表示硬盘未供电；当故障状态灯显示琥珀色闪烁时，表示硬盘出现错误；当故障状态灯显示蓝色长亮时，表示硬盘正常工作。

高温告警，出现此状态的原因有四个方面，一方面是网络服务器机柜发热密度过高、散热不良，造成局部过热，另一方面是机房空调制冷量不足，再一方面是数据中心设备的制冷设备异常停机，最后一方面是制冷设备因为异常断电重新恢复供电后不能自动启动，而数据中心设备的其他设备仍然由不间断电源供电，并正常运行发热。

在实施中，服务器根据运行状态信息，区分运行状态信息的正常信息和异常信息。确定与异常信息对应的异常数据中心设备，获取异常数据中心设备的设备信息，根据设备信息，生成故障现象工单。

具体的，服务器接收外接设备上传的运行状态信息，获取运行状态信息中各个监测类别的监测信息，确定监测类别中的正常信息，通过各个监测类别的监测信息以及正常信息，即可判断各个监测类别是否正常，若某一项监测类别存在异常信息，服务器则生成与异常信息的监测类别对应的故障现象工单。服务器在生成故障现象工单时，确定与异常信息对应的异常数据中心设备，获取异常数据中心设备的位置信息，并将位置信息记录在故障现象工单中，服务器将故障现象工单发送至管理端。

102：确定执行所述故障现象工单的运维管理人员信息，并根据所述运维管理人员信息传送所述故障现象工单。

在实施中，管理端接收服务器发送的故障现象工单，分析所述故障现象工单中的故障信息，分析运维管理人员的工作饱和度，根据所述故障信息和所述工作饱和度，确定执行故障现象工单的运维管理人员信息。管理端将运维管理人员信息发送至服务器。服务器根据运维管理人员信息，将故障现象工单发送至与运维管理人员信息相对应的客户端上，这样，运维管理人员通过客户端就可以接收并查看故障现象工单。

103：接收所述故障现象工单，并记录执行所述故障现象工单后的巡检信息。

在实施中，运维管理人员根据故障现象工单可以查看到异常数据中心设备的位置信息，以便查找到异常数据中心设备，对异常数据中心设备进行故障处理并将故障处理信息记录在客户端中形成巡检信息，运维管理人员可以利用客户端将巡检信息上传至服务器，服务器将巡检信息写入数据库，对巡检信息进行存储、统计、分类，数据库包括数据中心设备信息表、实时巡检信息表、历史巡检信息表，后期数据中心设备的维护过程中，运维管理人员只需查看数据库就可了解数据中心设备的状态，提高了数据中心设备的运维管理能力。

如图2所示，本发明实施例提供了一种数据中心设备巡检系统，所述系统应用于数据中心网络中，所述系统包括外接设备、服务器、管理端、客户端。

进一步的，所述服务器还用于：

确定所述运行状态信息中的异常信息；

针对所述异常信息，生成故障现象工单。

进一步的，所述服务器还用于：

确定与所述异常信息对应的异常数据中心设备，获取所述异常数据中心设备的设备信息

根据所述设备信息，生成所述故障现象工单。

进一步的，所述服务器还用于：

对所述巡检信息进行存储、统计、分类。

由上可见，通过一种数据中心巡检方法及系统，解决了运维管理人员在维护数据中心设备的同时无法实时检测数据中心设备运行状态，且效率较低的问题，实现信息互联、运维管理人员实时调派、故障工况实时处理的功能。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据中心设备巡检方法，其特征在于，所述方法应用于数据中心网络中，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，根据所述运行状态信息，生成故障现象工单的具体步骤包括：

确定所述运行状态信息中的异常信息；

针对所述异常信息，生成故障现象工单。

3.根据权利要求2所述的方法，其特征在于，确定所述运行状态信息中的异常信息的具体步骤包括：

4.根据权利要求2所述的方法，其特征在于，针对所述异常信息，生成故障现象工单的具体步骤包括：

根据所述设备信息，生成所述故障现象工单。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述巡检信息进行存储、统计、分类。

6.一种数据中心设备巡检系统，其特征在于，所述系统应用于数据中心网络中，所述系统包括外接设备、服务器、管理端、客户端。

7.根据权利要求6所述的系统，其特征在于，所述服务器还用于：

确定所述运行状态信息中的异常信息；

针对所述异常信息，生成故障现象工单。

8.根据权利要求7所述的系统，其特征在于，所述服务器还用于：

9.根据权利要求7所述的系统，其特征在于，所述服务器还用于：

根据所述设备信息，生成所述故障现象工单。

10.根据权利要求6所述的系统，其特征在于，所述服务器还用于：

对所述巡检信息进行存储、统计、分类。