CN109921920A - 一种故障信息处理方法与相关装置 - Google Patents

一种故障信息处理方法与相关装置 Download PDF

Info

Publication number
CN109921920A
CN109921920A CN201910059252.4A CN201910059252A CN109921920A CN 109921920 A CN109921920 A CN 109921920A CN 201910059252 A CN201910059252 A CN 201910059252A CN 109921920 A CN109921920 A CN 109921920A
Authority
CN
China
Prior art keywords
information
managed object
data center
managed
moment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910059252.4A
Other languages
English (en)
Inventor
和江涛
王波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201910059252.4A priority Critical patent/CN109921920A/zh
Publication of CN109921920A publication Critical patent/CN109921920A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明实施例公开了一种故障信息处理方法,用于优化数据中心的故障定位。本发明实施例方法包括:在多个时刻点,获取数据中心的安全管理信息;根据状态管理信息,确定数据中心的N个被管理对象的状态信息,该状态信息用于表示被管理对象的安全状态;记录多个时刻点以及每个时刻点对应的N个被管理对象的状态信息。本发明实施例还提供了相关的故障信息处理装置。

Description

一种故障信息处理方法与相关装置
技术领域
本发明涉及信息领域,尤其涉及一种故障信息处理方法与相关装置。
背景技术
数据中心是一整套复杂的设施,不仅包括计算机系统和其他与之配套的设备,还包括数据通信连接,环境控制设备,监控设备以及各种安全装置。随着数据中心相关技术的成熟,越来越多的企业开始构建自己的数据中心并将业务迁移到数据中心平台上。
实际的数据中心具有复杂的IT系统环境,当数据中心发生故障时,需要根据数据中心海量的状态管理信息人工进行故障定位,这些状态管理信息用于表示数据中心的运行状态,包括数据中心的系统配置信息、和/或告警信息、和/或性能监控信息、和/或日志信息、和/或投诉保障信息、和/或配置变更信息、和/或工单信息。
但是数据中心发生故障时,首要的任务是恢复业务,而业务恢复后,数据中心的状态管理信息与故障时刻相比已经发生了变化,需要人工投入大量时间查找历史状态管理信息,然后分析故障的发生位置。即便如此,故障时刻的很多状态管理信息也已经不可查询,导致无法实现精准的故障定位。因此,现有技术的故障信息处理方法耗时长,操作复杂,且可靠性不高。
发明内容
本发明实施例提供了一种故障信息处理方法,用于优化故障定位。
本发明实施例的第一方面提供了一种故障信息处理方法,适用于数据中心,所述数据中心包括被管理对象,所述方法包括:
在多个时刻点,获取所述数据中心的状态管理信息,所述状态管理信息用于描述所述数据中心的运行状态;
根据所述状态管理信息,确定所述数据中心的N个被管理对象的状态信息,所述状态信息用于表示所述被管理对象的工作状态;
记录所述多个时刻点以及每个所述时刻点对应的N个被管理对象的状态信息。
结合本发明实施例的第一方面,本发明实施例的第一方面的第一种实现方式中,所述记录所述多个时刻点以及每个所述时刻点对应的N个被管理对象的状态信息之前还包括:
确定所述N个被管理对象之间的关联关系;
所述记录所述多个时刻点以及每个所述时刻点对应的N个被管理对象的状态信息包括:
记录所述多个时刻点、每个所述时刻点对应的N个被管理对象的状态信息、以及每个所述时刻点对应的N个被管理对象之间的关联关系。
结合本发明实施例的第一方面的第一种实现方式,本发明实施例的第一方面的第二种实现方式中,所述数据中心的状态管理信息包括:
系统配置信息、和/或告警信息、和/或性能监控信息、和/或日志信息、和/或投诉保障信息、和/或配置变更信息、和/或工单信息。
结合本发明实施例的第一方面的第一种或第二种实现方式,本发明实施例的第一方面的第三种实现方式中,所述根据所述状态管理信息,确定所述数据中心的N个被管理对象的状态信息包括:
根据所述数据中心的N个被管理对象的属性,将所述状态管理信息划分为所述N个被管理对象的状态信息,所述被管理对象的属性包括:被管理对象的设备名称、和/或被管理对象的IP地址、和/或被管理对象的设备编码、和/或被管理对象的用户名。
结合本发明实施例的第一方面的第一种或第二种实现方式,本发明实施例的第一方面的第四种实现方式中,所述方法还包括:
接收客户端发送的故障查找指令,所述故障查找指令包括故障发生时刻;
从记录的所述多个时刻点、每个所述时刻点对应的N个被管理对象的状态信息、以及每个所述时刻点对应的N个被管理对象之间的关联关系中,查找所述故障发生时刻对应的N个被管理对象的状态信息与N个被管理对象之间的关联关系;
将所述故障发生时刻对应的N个被管理对象的状态信息与N个被管理对象之间的关联关系反馈给所述客户端。
本发明实施例的第二方面提供了一种故障信息处理装置,适用于数据中心,所述数据中心包括被管理对象,所述装置包括:
信息获取模块,用于在多个时刻点,获取所述数据中心的状态管理信息,所述状态管理信息用于描述所述数据中心的运行状态;
安全确定模块,用于根据所述状态管理信息,确定所述数据中心的N个被管理对象的状态信息,所述状态信息用于表示所述被管理对象的工作状态;
信息记录模块,用于记录所述多个时刻点以及每个所述时刻点对应的N个被管理对象的状态信息。
结合本发明实施例的第二方面,本发明实施例的第二方面的第一种实现方式还包括:
关联确定模块,用于在所述信息记录模块记录所述多个时刻点以及每个所述时刻点对应的N个被管理对象的状态信息之前,确定所述N个被管理对象之间的关联关系;
所述信息记录模块具体用于:
记录所述多个时刻点、每个所述时刻点对应的N个被管理对象的状态信息、以及每个所述时刻点对应的N个被管理对象之间的关联关系;
结合本发明实施例的第二方面的第一种实现方式,本发明实施例的第二方面的第二种实现方式中,所述数据中心的状态管理信息包括:
系统配置信息、和/或告警信息、和/或性能监控信息、和/或日志信息、和/或投诉保障信息、和/或配置变更信息、和/或工单信息。
结合本发明实施例的第二方面的第一种或第二种实现方式,本发明实施例的第二方面的第三种实现方式中,所述安全确定模块具体用于:
根据所述数据中心的N个被管理对象的属性,将所述状态管理信息划分为所述N个被管理对象的状态信息,所述被管理对象的属性包括:被管理对象的设备名称、和/或被管理对象的IP地址、和/或被管理对象的设备编码、和/或被管理对象的用户名。
结合本发明实施例的第二方面的第一种或第二种实现方式,本发明实施例的第二方面的第四种实现方式还包括:
指令接收模块,用于接收客户端发送的故障查找指令,所述故障查找指令包括故障发生时刻;
故障查找模块,用于从记录的所述多个时刻点以及每个所述时刻点对应的N个被管理对象的状态信息中,查找所述故障发生时刻对应的N个被管理对象的状态信息;
故障反馈模块,用于将所述故障发生时刻对应的N个被管理对象的状态信息反馈给所述客户端。
本发明实施例提供的方法中,在多个时刻点,获取数据中心的状态管理信息;根据状态管理信息,确定数据中心的N个被管理对象的状态信息,该状态信息用于表示被管理对象的安全状态;记录多个时刻点以及每个时刻点对应的N个被管理对象的状态信息。本发明实施例提供的方法将数据中心的状态管理信息按照被管理对象进行分类保存,这样在进行故障定位的时候,用户可以根据保存的信息,直接定位到故障发生时刻,根据该时刻每个被管理对象的安全状态进行准确的故障定位,无需人工查找海量的状态管理信息,也无需人工对状态管理信息进行分析。因此,本发明实施例提供的方法能够减少故障定位的时长,简化故障定位的操作,提高故障定位的可靠性。
附图说明
图1为本发明实施例中故障信息处理方法一个实施例流程图;
图2为本发明实施例中故障信息处理方法另一个实施例流程图;
图3为本发明实施例中故障信息处理装置一个实施例流程图;
图4为本发明实施例中故障信息处理装置另一个实施例流程图;
图5为本发明实施例中故障信息处理装置另一个实施例流程图;
图6为本发明实施例中故障信息处理装置另一个实施例流程图。
具体实施方式
本发明实施例提供了一种故障信息处理方法,用于减少故障定位的时长,简化故障定位的操作,提高故障定位的可靠性。本发明实施例还提供了相关的故障信息处理装置,以下将分别进行说明。
本发明实施例提供的故障信息处理方法的基本流程请参阅图1,主要包括:
101、在多个时刻点,获取数据中心的状态管理信息;
故障信息处理装置在多个时刻点,获取数据中心的状态管理信息,该状态管理信息用于描述数据中心的运行状态。
其中,多个时刻点可以为人为设定,也可以为故障信息处理装置默认设定,如故障信息处理装置默认每隔15min设置一个时刻点。该多个时刻点也可以通过其他方式确定,此处不做限定。
故障信息处理装置获取数据中心的状态管理信息的方法有很多,将在后面的实施例中详述,此处不做限定。
102、根据状态管理信息,确定数据中心的N个被管理对象的状态信息;
数据中心包括不少于一个的被管理对象,数据中心对这些被管理对象进行管理。其中,被管理对象可以为物理设备等实体对象,也可以为操作系统、数据库、中间件等软件对象,本实施例中不做限定。
故障信息处理装置根据状态管理信息,确定数据中心的N个被管理对象的状态信息。其中,状态信息用于表示被管理对象的工作状态。
103、记录该多个时刻点以及每个时刻点对应的N个被管理对象的状态信息。
故障信息处理装置记录该多个时刻点以及每个时刻点对应的N个被管理对象的状态信息,使得用户在进行故障定位的时候,能够从保存的多个时刻点与对应的状态信息中,查找故障发生时刻每个被管理对象的安全状态,进而准确的定位是哪一个被管理单元发生故障。
本实施例提供了一种故障信息处理方法,其中故障信息处理装置在多个时刻点,获取数据中心的状态管理信息;根据状态管理信息,确定数据中心的N个被管理对象的状态信息,该状态信息用于表示被管理对象的安全状态;记录多个时刻点以及每个时刻点对应的N个被管理对象的状态信息。本实施例提供的方法将数据中心的状态管理信息按照被管理对象进行分类保存,这样在进行故障定位的时候,用户可以直接查找故障发生前后时刻所保存的信息,根据故障发生前后时刻每个被管理对象的安全状态进行准确的故障定位,无需人工查找海量的状态管理信息,也无需人工对状态管理信息进行分析。因此,本实施例提供的方法能够减少故障定位的时长,简化故障定位的操作,提高故障定位的可靠性。
图1所示的实施例给出了本发明实施例提供的故障信息处理方法的基本流程,下面将提供一种更为细化的实施例,用于提供更为精准的故障定位,请参阅图2,其基本流程包括:
201、在多个时刻点,获取数据中心的状态管理信息;
故障信息处理装置在多个时刻点,获取数据中心的状态管理信息,该状态管理信息用于描述数据中心的运行状态。
其中,该多个时刻点可以为人为设定,也可以为故障信息处理装置默认设定,如故障信息处理装置默认每隔15min设置一个时刻点。该多个时刻点也可以通过其他方式确定,此处不做限定。
故障信息处理装置获取数据中心的状态管理信息的方法有很多,例如,数据中心可以包括配置库(CMDB,Configuration Management Database)、网管系统、日志系统、投诉保障系统、配置变更系统、工单系统中的一个或几个系统,故障信息处理装置可以从这些系统中主动获取数据中心的状态管理信息,或被动的接收这些系统发送的数据中心的状态管理信息。故障信息处理装置也可以通过其他方式获取数据中心的状态管理信息,此处不做限定。
可选的,与数据中心的系统相对应的,数据中心的状态管理信息可以包括系统配置信息、和/或告警信息、和/或性能监控信息、和/或日志信息、和/或投诉保障信息、和/或配置变更信息、和/或工单信息,也可以包括其他信息,此处不做限定。
202、根据状态管理信息,确定数据中心的N个被管理对象的状态信息;
数据中心包括不少于一个的被管理对象,数据中心对这些被管理对象进行管理。其中,被管理对象可以为物理设备等实体对象,也可以为操作系统等软件对象,本实施例中不做限定。
故障信息处理装置根据状态管理信息,确定数据中心的N个被管理对象的状态信息。其中,状态信息用于表示被管理对象的工作状态。
可选的,故障信息处理装置可以根据数据中心的N个被管理对象的属性,将步骤201中获取的状态管理信息划分为N个被管理对象的状态信息。其中,被管理对象的属性可以包括被管理对象的设备名称、IP地址、设备编码、用户名中的一个或几个,也可以为其他的属性。例如故障信息处理装置可以根据被管理对象的IP地址,将数据中心的告警信息、和/或性能监控信息、和/或日志信息分为每个被管理对象的告警信息、和/或性能监控信息、和/或日志信息;或,根据被管理对象的资产编码,将数据中心的配置变更信息、和/或工单信息分为每个被管理对象的配置变更信息、和/或工单信息;或,根据被管理对象的设备名称,将数据中心的系统配置信息、和/或投诉保障信息分为每个被管理对象的配置信息、和/或投诉保障信息。将步骤201中获取的状态管理信息划分为N个被管理对象的状态信息也可以为其它方法,此处不做限定。
可选的,故障信息处理装置根据数据中心的N个被管理对象的属性,将步骤201中获取的状态管理信息划分为N个被管理对象的状态信息后,为了减少待记录的数据,还可以对状态信息做进一步的处理,如删除无效数据或重复数据(如日志中info信息)等。此处不做限定。
203、确定N个被管理对象之间的关联关系;
故障信息处理装置在步骤201中所述的多个时刻点,确定N个被管理对象之间的关联关系。该关联关系用于关联该N各被管理对象中,具有信息交互的被管理对象。
204、记录该多个时刻点、每个时刻点对应的N个被管理对象的状态信息、以及每个时刻点对应的N个被管理对象之间的关联关系。
故障信息处理装置记录该多个时刻点、每个时刻点对应的N个被管理对象的状态信息,以及每个时刻点对应的N个被管理对象之间的关联关系,使得用户在进行故障定位的时候,能够从保存的多个时刻点与对应的状态信息中,查找故障发生时刻每个被管理对象的安全状态,进而准确的定位是哪一个被管理对象发生故障。特别的,由于有些时候,数据中心的故障并不是被管理对象本身发生故障,而是两个或多个被管理对象之间信息交互的通道发生了故障。因此,用户在进行故障定位时,还可以结合故障时刻对应的N个被管理对象之间的关联关系来进行分析,判断发生故障的究竟是被管理对象本身,还是被管理对象之间的信息交互的通道。
本实施例提供了一种故障信息处理方法,其中故障信息处理装置在多个时刻点,获取数据中心的状态管理信息;根据状态管理信息,确定数据中心的N个被管理对象的状态信息,该状态信息用于表示被管理对象的安全状态;确定N个被管理对象之间的关联关系;记录多个时刻点、每个时刻点对应的N个被管理对象的状态信息与N个被管理对象之间的关联关系。本实施例提供的方法将数据中心的状态管理信息按照被管理对象进行分类保存,这样在进行故障定位的时候,用户可以直接查找故障发生前后时刻所保存的信息,根据故障发生前后时刻每个被管理对象的安全状态进行准确的故障定位,无需人工查找海量的状态管理信息,也无需人工对状态管理信息进行分析。因此,本实施例提供的方法能够减少故障定位的时长,简化故障定位的操作,提高故障定位的可靠性。且本实施例中还记录了多个时刻点时N个被管理对象之间的关联关系,为用户进行故障定位提供了进一步的参考,使得用户能够进行更为精准的故障定位。
用户在进行故障定位时,可以使用客户端来从故障信息处理装置中查找故障时刻对应的信息,因此可选的,作为本发明的又一个实施例,在步骤204之后,故障信息处理装置还可以接收客户端发送的故障查找指令,该故障查找指令包括故障发生时刻;故障信息处理装置从记录的多个时刻点、每个时刻点对应的N个被管理对象的状态信息、以及每个时刻点对应的N个被管理对象之间的关联关系中,查找故障发生时刻对应的N个被管理对象的状态信息与N个被管理对象之间的关联关系,并将故障发生时刻对应的N个被管理对象的状态信息与N个被管理对象之间的关联关系反馈给客户端,使得用户能通过客户端获取故障信息处理装置的查找结果。其中,故障发生时刻对应的N个被管理对象的状态信息,可以为故障发生时刻前后预置时间段(如故障发生时刻前30分钟至故障发生时刻后20分钟的时间段)内,故障信息处理装置所保存的N个被管理对象的状态信息。
为了便于理解上述实施例,下面将以上述实施例的一个具体应用场景为例进行描述。
故障信息处理装置每隔15min,从数据中心的网管系统获取数据中心的告警信息、从数据中心的日志系统获取数据中心的日志信息、从数据中心的配置变更系统获取数据中心的配置变更信息、从数据中心的工单系统获取数据中心的工单信息。
数据中心包括三个被管理对象,分别为网络设备A,存储设备B与计算设备C。故障信息处理装置将获取到的数据中心的告警信息和日志信息,按照设备A、B、C的IP地址进行划分,分为设备A的告警信息和日志信息、设备B的告警信息和日志信息和设备C的告警信息和日志信息,将获取到的数据中心的配置变更信息和工单信息,按照设备A、B、C的资产编码进行划分,分为设备A的配置变更信息和工单信息、设备B的配置变更信息和工单信息和设备C的配置变更信息和工单信息。
故障信息处理装置确定设备A、B、C的关联关系,其中,设备A与设备之间有信息交互,设备B与设备C之间有信息交互。
故障信息处理装置这些时刻点,以及这些时刻点对应的设备A、B、C的告警信息、日志信息、配置变更信息、工单信息以及设备A、B、C的关联关系记录下来。
用户使用客户端来从故障信息处理装置中查找故障时刻对应的信息,故障信息处理装置接收用户客户端发送的故障查找指令,该故障查找指令包括故障发生时刻为10:22am;故障信息处理装置从记录的信息中查找到10:00am、10:15am以及10:30am时,设备A、B、C的告警信息、日志信息、配置变更信息、工单信息以及设备A、B、C的关联关系,故障信息处理装置将查找结果反馈给客户端,该查找结果显示10:15am时,设备A的告警信息显示设备A掉电。用户根据该告警信息,将发生故障的被管理对象定位为设备A。
上面的实施例提供了一种故障信息处理方法,下面的实施例将提供一种故障信息处理装置,用于实现上述方法,其基本结构请参阅图3,包括:
信息获取模块301,用于在多个时刻点,获取数据中心的状态管理信息,该状态管理信息用于描述数据中心的运行状态;
安全确定模块302,用于根据状态管理信息,确定数据中心的N个被管理对象的状态信息,该状态信息用于表示被管理对象的工作状态;
信息记录模块303,用于记录该多个时刻点以及每个时刻点对应的N个被管理对象的状态信息。
本实施例提供了一种故障信息处理装置,其中信息获取模块301在多个时刻点,获取数据中心的状态管理信息;安全确定模块302根据状态管理信息,确定数据中心的N个被管理对象的状态信息,该状态信息用于表示被管理对象的安全状态;信息记录模块303记录多个时刻点以及每个时刻点对应的N个被管理对象的状态信息。本实施例提供的装置将数据中心的状态管理信息按照被管理对象进行分类保存,这样在进行故障定位的时候,用户可以直接查找故障发生前后时刻所保存的信息,根据故障发生前后时刻每个被管理对象的安全状态进行准确的故障定位,无需人工查找海量的状态管理信息,也无需人工对状态管理信息进行分析。因此,本实施例提供的装置能够减少故障定位的时长,简化故障定位的操作,提高故障定位的可靠性。
图3所示的实施例给出了本发明实施例提供的故障信息处理装置的基本结构,下面将提供一种更为细化的实施例,用于提供更为精准的故障定位,请参阅图4,其基本结构包括:
信息获取模块401,用于在多个时刻点,获取数据中心的状态管理信息,该状态管理信息用于描述数据中心的运行状态;
安全确定模块402,用于根据状态管理信息,确定数据中心的N个被管理对象的状态信息,该状态信息用于表示被管理对象的工作状态;
关联确定模块403,用于在信息记录模块记录该多个时刻点以及每个时刻点对应的N个被管理对象的状态信息之前,确定该N个被管理对象之间的关联关系;
信息记录模块404,用于记录该多个时刻点、每个时刻点对应的N个被管理对象的状态信息、以及每个时刻点对应的N个被管理对象之间的关联关系。
可选的,数据中心的状态管理信息可以包括:系统配置信息、和/或告警信息、和/或性能监控信息、和/或日志信息、和/或投诉保障信息、和/或配置变更信息、和/或工单信息。
可选的,安全确定模块具体可以用于:根据所述数据中心的N个被管理对象的属性,将所述状态管理信息划分为所述N个被管理对象的状态信息,所述被管理对象的属性包括:被管理对象的设备名称、和/或被管理对象的IP地址、和/或被管理对象的设备编码、和/或被管理对象的用户名。
本实施例提供了一种故障信息处理装置,其中信息获取模块401在多个时刻点,获取数据中心的状态管理信息;安全确定模块402根据状态管理信息,确定数据中心的N个被管理对象的状态信息,该状态信息用于表示被管理对象的安全状态;关联确定模块403确定N个被管理对象之间的关联关系;信息记录模块404记录多个时刻点、每个时刻点对应的N个被管理对象的状态信息与N个被管理对象之间的关联关系。本实施例提供的装置将数据中心的状态管理信息按照被管理对象进行分类保存,这样在进行故障定位的时候,用户可以直接查找故障发生前后时刻所保存的信息,根据故障发生前后时刻每个被管理对象的安全状态进行准确的故障定位,无需人工查找海量的状态管理信息,也无需人工对状态管理信息进行分析。因此,本实施例提供的装置能够减少故障定位的时长,简化故障定位的操作,提高故障定位的可靠性。且本实施例中信息记录模块404还记录了多个时刻点时N个被管理对象之间的关联关系,为用户进行故障定位提供了进一步的参考,使得用户能够进行更为精准的故障定位。
图4所示的实施例给出了本发明实施例提供的一种较为细化的故障信息处理装置的基本结构,下面将提供一种更为细化的故障信息处理装置,该装置能够与客户端进行信息交互,请参阅图5,其基本结构包括:
信息获取模块501,用于在多个时刻点,获取数据中心的状态管理信息,该状态管理信息用于描述数据中心的运行状态;
安全确定模块502,用于根据状态管理信息,确定数据中心的N个被管理对象的状态信息,该状态信息用于表示被管理对象的工作状态;
关联确定模块503,用于在信息记录模块记录该多个时刻点以及每个时刻点对应的N个被管理对象的状态信息之前,确定该N个被管理对象之间的关联关系;
信息记录模块504,用于记录该多个时刻点、每个时刻点对应的N个被管理对象的状态信息、以及每个时刻点对应的N个被管理对象之间的关联关系。
指令接收模块505,用于接收客户端发送的故障查找指令,该故障查找指令包括故障发生时刻;
故障查找模块506,用于从记录的多个时刻点以及每个时刻点对应的N个被管理对象的状态信息中,查找故障发生时刻对应的N个被管理对象的状态信息;
故障反馈模块507,用于将故障发生时刻对应的N个被管理对象的状态信息反馈给客户端。
本实施例提供了一种故障信息处理装置,其中信息获取模块501在多个时刻点,获取数据中心的状态管理信息;安全确定模块502根据状态管理信息,确定数据中心的N个被管理对象的状态信息,该状态信息用于表示被管理对象的安全状态;关联确定模块503确定N个被管理对象之间的关联关系;信息记录模块504记录多个时刻点、每个时刻点对应的N个被管理对象的状态信息与N个被管理对象之间的关联关系。本实施例提供的装置将数据中心的状态管理信息按照被管理对象进行分类保存,这样在进行故障定位的时候,用户可以根据保存的信息,直接查找定位到故障发生前后时刻所保存的信息,根据故障发生前后时刻该时刻每个被管理对象的安全状态进行准确的故障定位,无需人工查找海量的状态管理信息,也无需人工对状态管理信息进行分析。因此,本实施例提供的装置能够减少故障定位的时长,简化故障定位的操作,提高故障定位的可靠性。且本实施例中信息记录模块504还记录了多个时刻点时N个被管理对象之间的关联关系,为用户进行故障定位提供了进一步的参考,使得用户能够进行更为精准的故障定位。同时,指令接收模块505能够接收客户端发送的故障查找指令;故障查找模块506从记录的多个时刻点以及每个时刻点对应的N个被管理对象的状态信息中查找故障发生时刻对应的N个被管理对象的状态信息;故障反馈模块507将故障发生时刻对应的N个被管理对象的状态信息反馈给客户端,这样就使得用户能通过客户端获取故障信息处理装置的查找结果。
为了便于理解上述实施例,下面将以上述实施例的一个具体应用场景为例进行描述。
信息获取模块501每隔15min,从数据中心的网管系统获取数据中心的告警信息、从数据中心的日志系统获取数据中心的日志信息、从数据中心的配置变更系统获取数据中心的配置变更信息、从数据中心的工单系统获取数据中心的工单信息。
数据中心包括三个被管理对象,分别为网络设备A,存储设备B与计算设备C。安全确定模块502将获取到的数据中心的告警信息和日志信息,按照设备A、B、C的IP地址进行划分,分为设备A的告警信息和日志信息、设备B的告警信息和日志信息和设备C的告警信息和日志信息,将获取到的数据中心的配置变更信息和工单信息,按照设备A、B、C的资产编码进行划分,分为设备A的配置变更信息和工单信息、设备B的配置变更信息和工单信息和设备C的配置变更信息和工单信息。
关联确定模块503确定设备A、B、C的关联关系,其中,设备A与设备之间有信息交互,设备B与设备C之间有信息交互。
信息记录模块504将这些时刻点,以及这些时刻点对应的设备A、B、C的告警信息、日志信息、配置变更信息、工单信息以及设备A、B、C的关联关系记录下来。
用户使用客户端来从故障信息处理装置中查找故障时刻对应的信息,指令接收模块505接收用户客户端发送的故障查找指令,该故障查找指令包括故障发生时刻为10:22am;故障查找模块506从记录的信息中查找到10:00am、10:15am以及10:30am时,设备A、B、C的告警信息、日志信息、配置变更信息、工单信息以及设备A、B、C的关联关系,故障反馈模块507将查找结果反馈给客户端,该查找结果显示10:15am时,设备A的告警信息显示设备A掉电。用户根据该告警信息,将发生故障的被管理对象定位为设备A。
上面从单元化功能实体的角度对本发明实施例中的故障信息处理装置进行了描述,下面从硬件处理的角度对本发明实施例中的故障信息处理装置进行描述,请参阅图6,本发明实施例中的故障信息处理装置600另一实施例包括:
输入装置601、输出装置602、处理器603和存储器604(其中故障信息处理装置600中的处理器603的数量可以一个或多个,图6中以一个处理器603为例)。在本发明的一些实施例中,输入装置601、输出装置602、处理器603和存储器604可通过总线或其它方式连接,其中,图6中以通过总线连接为例。
其中,通过调用存储器604存储的操作指令,处理器603用于执行如下步骤:
在多个时刻点,获取数据中心的状态管理信息,该状态管理信息用于描述数据中心的运行状态;
根据状态管理信息,确定数据中心的N个被管理对象的状态信息,该状态信息用于表示被管理对象的工作状态;
记录该多个时刻点以及每个时刻点对应的N个被管理对象的状态信息。
本发明的一些实施例中,处理器603还执行如下步骤:
在记录该多个时刻点以及每个时刻点对应的N个被管理对象的状态信息之前,确定N个被管理对象之间的关联关系;
记录该多个时刻点、每个时刻点对应的N个被管理对象的状态信息、以及每个时刻点对应的N个被管理对象之间的关联关系。
本发明的一些实施例中,数据中心的状态管理信息包括:
系统配置信息、和/或告警信息、和/或性能监控信息、和/或日志信息、和/或投诉保障信息、和/或配置变更信息、和/或工单信息。
本发明的一些实施例中,处理器603还执行如下步骤:
根据数据中心的N个被管理对象的属性,将状态管理信息划分为N个被管理对象的状态信息,该被管理对象的属性包括:被管理对象的设备名称、和/或被管理对象的IP地址、和/或被管理对象的设备编码、和/或被管理对象的用户名。
本发明的一些实施例中,处理器603还执行如下步骤:
接收客户端发送的故障查找指令,该故障查找指令包括故障发生时刻;
从记录的多个时刻点、每个时刻点对应的N个被管理对象的状态信息、以及每个时刻点对应的N个被管理对象之间的关联关系中,查找故障发生时刻对应的N个被管理对象的状态信息与N个被管理对象之间的关联关系;
将故障发生时刻对应的N个被管理对象的状态信息与N个被管理对象之间的关联关系反馈给客户端。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种故障信息处理方法,适用于数据中心,其特征在于,所述数据中心包括被管理对象,所述方法包括:
获取所述数据中心的状态管理信息,所述状态管理信息用于描述所述数据中心的运行状态;
根据所述状态管理信息,确定所述数据中心的N个被管理对象的状态信息,所述状态信息用于表示所述被管理对象的工作状态;
删除所述N个被管理对象的状态信息中的无效数据或者重复数据;
确定所述N个被管理对象之间的关联关系;
记录所述N个被管理对象的状态信息、以及所述N个被管理对象之间的关联关系。
2.根据权利要求1所述的故障信息处理方法,其特征在于,所述数据中心的状态管理信息包括:
系统配置信息、和/或告警信息、和/或性能监控信息、和/或日志信息、和/或投诉保障信息、和/或配置变更信息、和/或工单信息。
3.根据权利要求1或2所述的故障信息处理方法,其特征在于,所述根据所述状态管理信息,确定所述数据中心的N个被管理对象的状态信息包括:
根据所述数据中心的N个被管理对象的属性,将所述状态管理信息划分为所述N个被管理对象的状态信息,所述被管理对象的属性包括:被管理对象的设备名称、和/或被管理对象的IP地址、和/或被管理对象的设备编码、和/或被管理对象的用户名。
4.根据权利要求1或2所述的故障处理方法,其特征在于,
所述获取所述数据中心的状态管理信息,包括:
在第一时刻点获取所述数据中心的状态管理信息;
所述记录所述N个被管理对象的状态信息、以及所述N个被管理对象之间的关联关系,包括:
记录所述第一时刻点、所述第一时刻点对应的N个被管理对象的状态信息、以及所述第一时刻点对应的所述N个被管理对象之间的关联关系。
5.根据权利要求4所述的故障信息处理方法,其特征在于,所述方法还包括:
接收客户端发送的故障查找指令,所述故障查找指令包括故障发生时刻;
在所述第一时刻点在所述故障发生时刻前后预置时间段内时,从记录的所述第一时刻点、所述第一时刻点对应的N个被管理对象的状态信息、以及所述第一时刻点对应的N个被管理对象之间的关联关系中,查找所述N个被管理对象的状态信息与所述N个被管理对象之间的关联关系;
将所述N个被管理对象的状态信息与所述N个被管理对象之间的关联关系反馈给所述客户端。
6.一种故障信息处理装置,适用于数据中心,其特征在于,所述数据中心包括被管理对象,所述装置包括:
信息获取模块,用于获取所述数据中心的状态管理信息,所述状态管理信息用于描述所述数据中心的运行状态;
安全确定模块,用于根据所述状态管理信息,确定所述数据中心的N个被管理对象的状态信息,所述状态信息用于表示所述被管理对象的工作状态;
关联确定模块,用于确定所述N个被管理对象之间的关联关系;
信息记录模块,用于记录所述N个被管理对象的状态信息、以及所述N个被管理对象之间的关联关系。
7.根据权利要求6所述的故障信息处理装置,其特征在于,所述数据中心的状态管理信息包括:
系统配置信息、和/或告警信息、和/或性能监控信息、和/或日志信息、和/或投诉保障信息、和/或配置变更信息、和/或工单信息。
8.根据权利要求6或7所述的故障信息处理装置,其特征在于,所述安全确定模块具体用于:
根据所述数据中心的N个被管理对象的属性,将所述状态管理信息划分为所述N个被管理对象的状态信息,所述被管理对象的属性包括:被管理对象的设备名称、和/或被管理对象的IP地址、和/或被管理对象的设备编码、和/或被管理对象的用户名。
9.根据权利要求6或7所述的故障信息处理装置,其特征在于,
所述信息获取模块,具体用于在第一时刻点获取所述数据中心的状态管理信息;
所述信息记录模块,具体用于记录所述第一时刻点、所述第一时刻点对应的N个被管理对象的状态信息、以及所述第一时刻点对应的所述N个被管理对象之间的关联关系。
10.根据权利要求9所述的故障信息处理装置,其特征在于,所述装置还包括:
指令接收模块,用于接收客户端发送的故障查找指令,所述故障查找指令包括故障发生时刻;
故障查找模块,用于在所述第一时刻点在所述故障发生时刻前后预置时间段内时,从记录的所述第一时刻点以及所述第一时刻点对应的N个被管理对象的状态信息中,查找所述N个被管理对象的状态信息与所述N个被管理对象之间的关联关系;
故障反馈模块,用于将所述N个被管理对象的状态信息所述与N个被管理对象之间的关联关系反馈给所述客户端。
CN201910059252.4A 2014-12-16 2014-12-16 一种故障信息处理方法与相关装置 Pending CN109921920A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910059252.4A CN109921920A (zh) 2014-12-16 2014-12-16 一种故障信息处理方法与相关装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910059252.4A CN109921920A (zh) 2014-12-16 2014-12-16 一种故障信息处理方法与相关装置
CN201410784311.1A CN104539449B (zh) 2014-12-16 2014-12-16 一种故障信息处理方法与相关装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201410784311.1A Division CN104539449B (zh) 2014-12-16 2014-12-16 一种故障信息处理方法与相关装置

Publications (1)

Publication Number Publication Date
CN109921920A true CN109921920A (zh) 2019-06-21

Family

ID=52854918

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201410784311.1A Active CN104539449B (zh) 2014-12-16 2014-12-16 一种故障信息处理方法与相关装置
CN201910059252.4A Pending CN109921920A (zh) 2014-12-16 2014-12-16 一种故障信息处理方法与相关装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201410784311.1A Active CN104539449B (zh) 2014-12-16 2014-12-16 一种故障信息处理方法与相关装置

Country Status (2)

Country Link
CN (2) CN104539449B (zh)
WO (1) WO2016095716A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401577A (zh) * 2020-02-14 2020-07-10 上海电气分布式能源科技有限公司 设备管理方法、装置、设备及存储介质
CN111782437A (zh) * 2020-07-10 2020-10-16 中国工商银行股份有限公司 故障定位方法、装置、计算设备和介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104539449B (zh) * 2014-12-16 2019-02-19 华为技术有限公司 一种故障信息处理方法与相关装置
CN106909550A (zh) * 2015-12-22 2017-06-30 中国移动通信集团吉林有限公司 一种数据处理系统和方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0272742A (ja) * 1988-09-07 1990-03-13 Nec Corp データエラー発生場所検出方式
WO2008138250A1 (fr) * 2007-05-09 2008-11-20 Huawei Technologies Co., Ltd. Procédé de surveillance d'état des ressources, dispositif et réseau de communication
US20090150718A1 (en) * 2007-12-11 2009-06-11 Choon-Seo Park Large-scale cluster monitoring system, and method of automatically building/restoring the same
CN102739415A (zh) * 2011-03-31 2012-10-17 华为技术有限公司 确定网络故障数据、记录网络瞬时状态数据方法及装置
CN104184826A (zh) * 2014-09-05 2014-12-03 浪潮(北京)电子信息产业有限公司 多数据中心存储环境管理方法和系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102546274A (zh) * 2010-12-20 2012-07-04 中国移动通信集团广西有限公司 一种通信业务中的告警监控方法及设备
US9071535B2 (en) * 2013-01-03 2015-06-30 Microsoft Technology Licensing, Llc Comparing node states to detect anomalies
CN104539449B (zh) * 2014-12-16 2019-02-19 华为技术有限公司 一种故障信息处理方法与相关装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0272742A (ja) * 1988-09-07 1990-03-13 Nec Corp データエラー発生場所検出方式
WO2008138250A1 (fr) * 2007-05-09 2008-11-20 Huawei Technologies Co., Ltd. Procédé de surveillance d'état des ressources, dispositif et réseau de communication
US20090150718A1 (en) * 2007-12-11 2009-06-11 Choon-Seo Park Large-scale cluster monitoring system, and method of automatically building/restoring the same
CN102739415A (zh) * 2011-03-31 2012-10-17 华为技术有限公司 确定网络故障数据、记录网络瞬时状态数据方法及装置
CN104184826A (zh) * 2014-09-05 2014-12-03 浪潮(北京)电子信息产业有限公司 多数据中心存储环境管理方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401577A (zh) * 2020-02-14 2020-07-10 上海电气分布式能源科技有限公司 设备管理方法、装置、设备及存储介质
CN111782437A (zh) * 2020-07-10 2020-10-16 中国工商银行股份有限公司 故障定位方法、装置、计算设备和介质
CN111782437B (zh) * 2020-07-10 2023-08-11 中国工商银行股份有限公司 故障定位方法、装置、计算设备和介质

Also Published As

Publication number Publication date
WO2016095716A1 (zh) 2016-06-23
CN104539449B (zh) 2019-02-19
CN104539449A (zh) 2015-04-22

Similar Documents

Publication Publication Date Title
CN105165054B (zh) 网络服务故障处理方法,服务管理系统和系统管理模块
EP3748501B1 (en) Service metric analysis from structured logging schema of usage data
US9923767B2 (en) Dynamic configuration of remote capture agents for network data capture
CN107528766B (zh) 信息推送方法、装置及系统
CN105447046A (zh) 一种分布式系统数据一致性处理方法、装置和系统
US11405259B2 (en) Cloud service transaction capsulation
CN111800443B (zh) 数据处理系统和方法、装置以及电子设备
CN104022902A (zh) 一种监控服务器集群的方法和系统
CN107294808A (zh) 接口测试的方法、装置和系统
CN104539449B (zh) 一种故障信息处理方法与相关装置
CN103795762A (zh) 一种反向代理的测试方法及系统
WO2017016084A1 (zh) 告警信息通知方法、装置及告警信息过滤设备
CN107347062A (zh) 一种日志数据处理的方法、电子设备和可读存储介质
KR101443071B1 (ko) 웹페이지의 에러 체크 시스템
CN103441861A (zh) 一种数据记录生成方法及装置
CN107528767B (zh) 会话的处理方法和装置
CN108353018A (zh) 发送消息的方法、设备和系统
CN114465741A (zh) 一种异常检测方法、装置、计算机设备及存储介质
CN111740868A (zh) 告警数据的处理方法和装置及存储介质
CN103457802A (zh) 一种信息传输系统及方法
CN109039724A (zh) 日志上传方法和装置
CN107885634B (zh) 监控中异常信息的处理方法和装置
CN110661851A (zh) 数据交换方法和装置
CN105812432A (zh) 云文档处理方法及装置
US11005797B2 (en) Method, system and server for removing alerts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190621