CN110943863A - 一种数据中心 - Google Patents

一种数据中心 Download PDF

Info

Publication number
CN110943863A
CN110943863A CN201911203261.2A CN201911203261A CN110943863A CN 110943863 A CN110943863 A CN 110943863A CN 201911203261 A CN201911203261 A CN 201911203261A CN 110943863 A CN110943863 A CN 110943863A
Authority
CN
China
Prior art keywords
information
data center
fault
server
work order
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911203261.2A
Other languages
English (en)
Inventor
居静
王剑
宋婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wright Star Ming Data Co Ltd
Original Assignee
Wright Star Ming Data Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wright Star Ming Data Co Ltd filed Critical Wright Star Ming Data Co Ltd
Priority to CN201911203261.2A priority Critical patent/CN110943863A/zh
Publication of CN110943863A publication Critical patent/CN110943863A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种数据中心,所述数据中心包括数据中心系统和数据中心巡检系统;所述数据中心巡检系统检测所述数据中心系统的运行状态信息,并根据所述运行状态信息生成故障现象工单;所述数据中心巡检系统根据所述故障现象工单,确定执行所述故障现象工单的运维管理人员信息。采用本发明,解决了运维管理人员在巡检数据中心设备时无法快速判定数据中心设备故障,且巡检效率低的问题,使得数据中心的运维更快捷、高效,实现运维管理人员的统一管理。

Description

一种数据中心
技术领域
本发明涉及网络信息技术领域,特别涉及一种数据中心。
背景技术
随着数据中心行业的大力发展,将来在很多城市中都会有很大的发展空间,一些大型的数据中心也会越来越多。
数据中心巡检人员在巡检作业时,主要通过人工查看数据中心设备的运行指示灯,人为参与过强,存在数据中心设备的巡检依据不充分的问题,而且巡检人员完成一次常规巡检需要耗费很长时间,如果数据中心设备发生异常,巡检人员只能凭借个人经验和能力,主观判断数据中心设备异常的原因。
发明内容
本申请的目的在于解决运维管理人员在巡检数据中心设备时无法快速判定数据中心设备故障,且巡检效率低的问题。
为实现上述目的,本发明实施例提供了一种数据中心。所述技术方案如下:
一种数据中心,所述数据中心包括数据中心系统和数据中心巡检系统;
所述数据中心巡检系统检测所述数据中心系统的运行状态信息,并根据所述运行状态信息生成故障现象工单;
所述数据中心巡检系统根据所述故障现象工单,确定执行所述故障现象工单的运维管理人员信息。
进一步的,所述数据中心巡检系统包括外接设备、服务器、管理端、客户端;
所述外接设备,用于检测数据中心设备的运行状态信息,将所述运行状态信息发送至所述服务器;
所述服务器,用于根据所述运行状态信息,生成故障现象工单,将所述故障现象工单发送至所述管理端;
所述管理端,用于确定执行所述故障现象工单的运维管理人员信息,并将所述运维管理人员信息发送至所述服务器;
所述服务器,还用于根据所述运维管理人员信息将所述故障现象工单传送至所述客户端;
所述客户端,用于接收所述故障现象工单,并记录执行所述故障现象工单后的巡检信息。
进一步的,在所述数据中心巡检系统检测所述数据中心系统的运行状态信息之前还包括:
所述客户端接收运维任务检测功能的开启请求,并将所述开启请求发送至所述服务器;
所述服务器根据所述开启请求,控制所述外接设备对所述数据中心机房进行所述运行状态信息的检测。
进一步的,所述服务器还用于:
确定所述运行状态信息中的异常信息;
针对所述异常信息,生成故障现象工单。
进一步的,所述服务器还用于:
根据所述运行状态信息,区分所述运行状态信息的正常信息和异常信息。
进一步的,所述服务器还用于:
确定与所述异常信息对应的异常数据中心设备,获取所述异常数据中心设备的设备信息;
根据所述设备信息,生成所述故障现象工单。
进一步的,所述服务器还用于:
提取所述设备信息中异常数据中心设备的位置信息,将所述位置信息写入所述故障现象工单中。
进一步的,所述服务器还用于:
将所述巡检信息写入数据库中,并对所述巡检信息进行存储、统计、分类。
进一步的,所述管理端还用于:
分析所述故障现象工单中的故障信息;
根据所述故障信息,确定执行所述故障现象工单的运维管理人员信息。
进一步的,所述客户端还用于:
向所述服务器发送检索所述巡检信息中历史巡检信息的请求,所述服务器确定所述历史巡检信息中的故障处理方法是否与所述故障现象工单中的故障信息相匹配;
若匹配成功,所述服务器将所述故障处理方法发送至所述客户端。
本发明实施例提供的技术方案带来的有益效果是:通过一种数据中心,解决了运维管理人员在巡检数据中心设备时无法快速判定数据中心设备故障,且巡检效率低的问题,使得数据中心的运维更快捷、高效,实现运维管理人员的统一管理。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明中一种数据中心的示意图;
图2是本发明中数据中心巡检系统的巡检流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种数据中心,数据中心包括数据中心系统和数据中心巡检系统。数据中心系统包括供配电子系统、暖通子系统、弱电子系统、消防子系统以及集中监控子系统。数据中心巡检系统包括外接设备、服务器、管理端、客户端。
在本实施方式中,外接设备,用于检测数据中心设备的运行状态信息,将运行状态信息发送至所述服务器;服务器,用于根据运行状态信息,生成故障现象工单,将故障现象工单发送至管理端;管理端,用于确定执行故障现象工单的运维管理人员信息,并将运维管理人员信息发送至服务器;服务器,还用于根据运维管理人员信息将故障现象工单传送至所述客户端;客户端,用于接收故障现象工单,并记录执行故障现象工单后的巡检信息。
在本实施方式中,服务器还用于确定运行状态信息中的异常信息;针对异常信息,生成故障现象工单。
在本实施方式中,服务器还用于根据运行状态信息,区分运行状态信息的正常信息和异常信息。
在本实施方式中,服务器还用于确定与异常信息对应的异常数据中心设备,获取异常数据中心设备的设备信息;根据设备信息,生成故障现象工单。
在本实施方式中,服务器还用于提取设备信息中异常数据中心设备的位置信息,将位置信息写入故障现象工单中。
在本实施方式中,服务器还用于将巡检信息写入数据库中,并对巡检信息进行存储、统计、分类。
具体的,数据库可以为关系型数据库,如Oracle、DB2、MySQL、MicroSoft SQLServer、MicroSoft Access等。数据库中的数据包括设备信息、实时巡检信息、历史巡检信息。
在本实施方式中,管理端还用于分析故障现象工单中的故障信息;根据故障信息,确定执行故障现象工单的运维管理人员信息。
在本实施方式中,客户端还用于向服务器发送检索巡检信息中历史巡检信息的请求,服务器确定历史巡检信息中的故障处理方法是否与故障现象工单中的故障信息相匹配;若匹配成功,服务器将所述故障处理方法发送至所述客户端。
具体的,客户端可以为web客户端、移动客户端等,web客户端主要是web浏览器,移动客户端主要是手机客户端。可以用于显示向服务器请求的故障处理方法以及服务所传送的故障现象工单。
如图2所示,数据中心巡检系统对数据中心系统的巡检步骤如下:
201:数据中心巡检系统检测所述数据中心系统的运行状态信息,并根据运行状态信息生成故障现象工单。
在本实施方式中,客户端接收运维任务检测功能的开启请求,并将开启请求发送至服务器;服务器根据开启请求,控制外接设备对数据中心机房进行运行状态信息的检测。
具体的,数据中心系统的集中监控子系统与数据中心巡检系统的外接设备相连接,数据中心系统中的供配电子系统、暖通子系统、弱电子系统以及消防子系统周期性的向集中监控子系统周期性的反馈状态信息,周期的时长可以根据整个数据中心的运转状况进行设定,设定周期时长进行状态信息反馈避免了数据中心系统中各个子系统的损耗。外接设备受服务器控制在集中监控子系统中检测出数据中心系统的运行状态信息,并将运行状态信息发送至服务器。其中,运行状态信息包括正常信息和异常信息,异常信息还包括内存标志报警信息、主板故障信息、关机状态信息、数据中心设备关机操作记录信息、电源模块故障信息、硬盘告警信息、高温告警信息等。具体的,结合内存灯和故障状态灯说明异常信息:
内存标志报警或者主板故障,数据中心系统的内存灯显示黄色,原因有两个方面,一方面是ECC内存校验错误,另一方面是CPU在某个时间内未读取到内存数据。运维管理人员可以对数据中心系统进行关机,关机后清除报错日志,数据中心系统重启后,换位置重新插内存,如果黄色灯的位置跟随内存移动说明内存故障,反之则是主板故障。
关机状态或者电源模块故障,表现为内存灯灭或者故障状态灯灭。
数据中心系统关机操作记录,维修人员或者运维管理人员或者其他人员对数据中心系统的关机操作会被记录下来。
硬盘告警,通过进入阵列卡的BIOS程序查看硬盘状态。当故障状态灯灭时,表示硬盘未供电;当故障状态灯显示琥珀色闪烁时,表示硬盘出现错误;当故障状态灯显示蓝色长亮时,表示硬盘正常工作。
高温告警,出现此状态的原因有四个方面,一方面是网络服务器机柜发热密度过高、散热不良,造成局部过热,另一方面是数据中心机房空调制冷量不足,再一方面是数据中心系统的制冷设备异常停机,最后一方面是制冷设备因为异常断电重新恢复供电后不能自动启动,而数据中心系统的其他设备仍然由不间断电源供电,并正常运行发热。
在本实施方式中,服务器接收外接设备上传的运行状态信息,获取运行状态信息中各个监测类别的监测信息,确定监测类别中的正常信息,通过各个监测类别的监测信息以及正常信息,即可判断各个监测类别是否正常,若某一项监测类别存在非正常的监测信息,服务器则生成与非正常的监测信息的监测类别对应的故障现象工单。
在本实施方式中,数据中心的数据中心系统中各个子系统的数据中心设备信息可以由服务器存储在数据库中,服务器在生成故障现象工单之后,可以在数据库中提取异常数据中心设备的位置信息,并将位置信息记录在故障现象工单中,服务器将故障现象工单发送至管理端。
202:数据中心巡检系统根据故障现象工单,确定执行故障现象工单的运维管理人员信息。
在本实施方式中,管理端接收服务器发送的故障现象工单,分析故障现象工单中的故障信息。管理端可以存储运维管理人员的工作任务,管理端可以根据故障信息和运维管理人员的工作饱和度,确定执行故障现象工单的运维管理人员信息。管理端将运维管理人员信息发送至服务器,服务器根据运维管理人员信息,将故障现象工单发送至与运维管理人员信息相对应的客户端上。
在本实施方式中,运维管理人员通过客户端可以接收到故障现象工单,运维管理人员根据故障现象工单查看到异常数据中心设备的位置信息,根据位置信息查找到需要进行维护的数据中心设备,对存在故障的数据中心设备进行故障处理并将故障处理信息以及数据中心设备信息记录在客户端中形成巡检信息,运维管理人员利用客户端将巡检信息上传至服务器,服务器将巡检信息写入数据库中,服务器通过数据库对巡检信息进行存储、统计、分类,后期数据中心设备的维护过程中,运维管理人员只需查看数据库就可了解数据中心设备的状态,提高了数据中心设备的运维管理能力。
在本实施方式中,客户端在接收到服务器发送的故障现象工单之后,客户端向服务器发送访问数据库的请求,请求检索数据库中的历史巡检信息,服务器访问数据库将历史巡检信息发送给客户端,服务器确定历史巡检信息中的故障处理方法是否与故障现象工单中的故障信息相匹配,若匹配成功,服务器将所述故障处理方法发送至所述客户端,客户端可以将故障处理方法反馈给运维管理人员。运维管理人员可以根据故障处理方法对数据中心设备进行维护,提高了工作效率。若未匹配成功,表明故障信息为新出现的故障信息,此时,运维管理人员可根据历史巡检信息了解数据中心设备的历史运行状态并综合分析,提供出新的故障处理方法并将其录入客户端并发送至服务器,有利于日后运维人员更好的查找出发生故障的原因,并及时解决。
由上可见,通过一种数据中心,解决了运维管理人员在巡检数据中心设备时无法快速判定数据中心设备故障,且巡检效率低的问题,使得数据中心的运维更快捷、高效,实现运维管理人员的统一管理。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据中心,其特征在于,所述数据中心包括数据中心系统和数据中心巡检系统;
所述数据中心巡检系统检测所述数据中心系统的运行状态信息,并根据所述运行状态信息生成故障现象工单;
所述数据中心巡检系统根据所述故障现象工单,确定执行所述故障现象工单的运维管理人员信息。
2.根据权利要求1所述的数据中心,其特征在于,所述数据中心巡检系统包括外接设备、服务器、管理端、客户端;
所述外接设备,用于检测数据中心设备的运行状态信息,将所述运行状态信息发送至所述服务器;
所述服务器,用于根据所述运行状态信息,生成故障现象工单,将所述故障现象工单发送至所述管理端;
所述管理端,用于确定执行所述故障现象工单的运维管理人员信息,并将所述运维管理人员信息发送至所述服务器;
所述服务器,还用于根据所述运维管理人员信息将所述故障现象工单传送至所述客户端;
所述客户端,用于接收所述故障现象工单,并记录执行所述故障现象工单后的巡检信息。
3.根据权利要求2所述的数据中心,其特征在于,在所述数据中心巡检系统检测所述数据中心系统的运行状态信息之前还包括:
所述客户端接收运维任务检测功能的开启请求,并将所述开启请求发送至所述服务器;
所述服务器根据所述开启请求,控制所述外接设备对所述数据中心机房进行所述运行状态信息的检测。
4.根据权利要求3所述的数据中心,其特征在于,所述服务器还用于:
确定所述运行状态信息中的异常信息;
针对所述异常信息,生成故障现象工单。
5.根据权利要求4所述的数据中心,其特征在于,所述服务器还用于:
根据所述运行状态信息,区分所述运行状态信息的正常信息和异常信息。
6.根据权利要求5所述的数据中心,其特征在于,所述服务器还用于:
确定与所述异常信息对应的异常数据中心设备,获取所述异常数据中心设备的设备信息;
根据所述设备信息,生成所述故障现象工单。
7.根据权利要求6所述的数据中心,其特征在于,所述服务器还用于:
提取所述设备信息中异常数据中心设备的位置信息,将所述位置信息写入所述故障现象工单中。
8.根据权利要求7所述的数据中心,其特征在于,所述服务器还用于:
将所述巡检信息写入数据库中,并对所述巡检信息进行存储、统计、分类。
9.根据权利要求8所述的数据中心,其特征在于,所述管理端还用于:
分析所述故障现象工单中的故障信息;
根据所述故障信息,确定执行所述故障现象工单的运维管理人员信息。
10.根据权利要求9所述的数据中心,其特征在于,所述客户端还用于:
向所述服务器发送检索所述巡检信息中历史巡检信息的请求,所述服务器确定所述历史巡检信息中的故障处理方法是否与所述故障现象工单中的故障信息相匹配;
若匹配成功,所述服务器将所述故障处理方法发送至所述客户端。
CN201911203261.2A 2019-11-29 2019-11-29 一种数据中心 Pending CN110943863A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911203261.2A CN110943863A (zh) 2019-11-29 2019-11-29 一种数据中心

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911203261.2A CN110943863A (zh) 2019-11-29 2019-11-29 一种数据中心

Publications (1)

Publication Number Publication Date
CN110943863A true CN110943863A (zh) 2020-03-31

Family

ID=69909292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911203261.2A Pending CN110943863A (zh) 2019-11-29 2019-11-29 一种数据中心

Country Status (1)

Country Link
CN (1) CN110943863A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052993A (zh) * 2021-03-16 2021-06-29 中国工商银行股份有限公司 一种基于告警信息联动的故障巡检方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130326038A1 (en) * 2012-06-05 2013-12-05 Microsoft Corporation Management of datacenters for fault tolerance and bandwidth
CN109325601A (zh) * 2018-08-21 2019-02-12 国网江苏省电力有限公司泰州供电分公司 物流设备故障监测运维管理方法
CN109379567A (zh) * 2018-11-20 2019-02-22 同心智能科技有限公司 一种远程监控运维服务平台
CN110112825A (zh) * 2019-04-19 2019-08-09 中电鼎润(广州)电力科技发展有限责任公司 电网设备在线监测方法、服务器及系统
US20190363934A1 (en) * 2016-12-22 2019-11-28 Chengdu SK Spruce Technologies Co., Ltd. Network operation support system and network device management method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130326038A1 (en) * 2012-06-05 2013-12-05 Microsoft Corporation Management of datacenters for fault tolerance and bandwidth
US20190363934A1 (en) * 2016-12-22 2019-11-28 Chengdu SK Spruce Technologies Co., Ltd. Network operation support system and network device management method
CN109325601A (zh) * 2018-08-21 2019-02-12 国网江苏省电力有限公司泰州供电分公司 物流设备故障监测运维管理方法
CN109379567A (zh) * 2018-11-20 2019-02-22 同心智能科技有限公司 一种远程监控运维服务平台
CN110112825A (zh) * 2019-04-19 2019-08-09 中电鼎润(广州)电力科技发展有限责任公司 电网设备在线监测方法、服务器及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宋维维: "一种新型数据中心移动巡检系统", 《智能建筑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052993A (zh) * 2021-03-16 2021-06-29 中国工商银行股份有限公司 一种基于告警信息联动的故障巡检方法及装置

Similar Documents

Publication Publication Date Title
CN103905255A (zh) 服务器内部硬件运行故障远程自动告警系统及方法
CN104574219A (zh) 电网业务信息系统运行工况的监测预警方法及系统
CN111045364B (zh) 一种基于大数据平台的动力环境监控系统辅助决策方法
CN115865649A (zh) 一种智能运维管理控制方法、系统和存储介质
CN114154035A (zh) 一种动环监控的数据处理系统
CN115878356A (zh) 磁盘故障预测方法及装置
CN110943863A (zh) 一种数据中心
CN110320503B (zh) 一种x波段天气雷达标准输出控制器系统
CN110173830B (zh) 空调运行数据的监控方法及相关设备
CN205983134U (zh) 一种服务器运行状态监控系统
CN110445694A (zh) 一种基于Zabbix监控触发通知的方法
CN110687851A (zh) 一种终端运行监控系统及方法
CN109460311A (zh) 固件异常状态的管理方法和装置
CN110750427A (zh) 一种数据中心设备巡检方法及系统
CN113112216A (zh) 一种针对设备缺陷的预判分析方法
CN112449019A (zh) 一种ims智能物联网运维管理平台
CN112288106A (zh) 囊式压力罐的压力自动控制系统
CN116381479A (zh) 状态监测方法、装置、计算机设备、存储介质和程序产品
CN110990226A (zh) 数据中心设备巡检方法及服务器、计算机可读存储介质
CN115543707A (zh) 硬盘故障的检测方法、系统和装置、存储介质及电子装置
CN212645787U (zh) 一种机房动力环境监测系统
CN211375047U (zh) 一种x波段天气雷达标准输出控制器系统
CN111274089B (zh) 一种基于旁路技术的服务器异常行为感知系统
CN113379082A (zh) 一种洁净工业环境及设备的云智慧监测节能及运维管理平台
CN113608959A (zh) 故障硬盘定位方法、系统、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200331

RJ01 Rejection of invention patent application after publication