CN112380090B

CN112380090B - 一种基于数据中心的告警事件的全面自愈方法及系统

Info

Publication number: CN112380090B
Application number: CN202011250684.2A
Authority: CN
Inventors: 陈瑞; 冷迪; 李英
Original assignee: Shenzhen Power Supply Bureau Co Ltd
Current assignee: Shenzhen Power Supply Bureau Co Ltd
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2023-03-03
Anticipated expiration: 2040-11-11
Also published as: CN112380090A

Abstract

本发明提供一种基于数据中心的告警事件的全面自愈方法，包括获取数据中心的运维数据，并基于运维数据，对告警事件是否存在进行检测；若检测到存在告警事件，则确定出发生告警事件的器件及其对应的所有关联器件，并结合运维数据，得到各关联器件的相关数据；将各关联器件的相关数据分别与预定的故障临界触发条件组合进行对比，筛选出满足预定的故障临界触发条件组合之中任一条件的关联器件。实施本发明，以达到器件全面检测，减少器件故障发生，提高安全性，降低运维成本。

Description

一种基于数据中心的告警事件的全面自愈方法及系统

技术领域

本发明涉及互联网数据中心技术领域，尤其涉及一种基于数据中心的告警事件的全面自愈方法及系统。

背景技术

近年来，随着中国经济的快速发展，网络设备市场不断扩大，刺激了整个互联网行业的飞速发展。互联网数据中心(Internet Data Center，简称IDC)就是电信部门利用已有的互联网通信线路、带宽资源，建立标准化的电信专业级机房环境，为企业、政府提供服务器托管、租用以及相关增值等方面的全方位服务。而对于现在网络飞速发展的时代来说，网站系统对带宽、管理维护日益增长的高要求对很多企业构成了严峻的挑战。于是，企业开始将与网站托管服务相关的一切事物交给专门提供网络服务的IDC去做，而将精力集中在增强核心竞争力的业务中去。可见，大型的、专业的IDC机房将会更受企业的青睐。

在数据中心的系统中，数据中心连接有多条工作链(即同一系统下)，而每一工作链均包含有对应的器件，如大一点的天线、服务器、交换机、路由器及PC端等，又或者小一点的CPU、电源、磁盘、内存卡、电容、电阻、继电器、传感器等，而这些器件之间工作关系紧密，每一个器件的工作参数的变化都会对同一系统下的相关联器件产生一些影响(特殊情况下会达到很大影响)，轻则改变器件的工作参数，重则烧坏或损坏相邻器件。对整个数据中心来说，损坏器件虽然成本会增大，但若影响到整个系统，甚至整个数据中心的工作，则带来的经济损失不敢想象。因此，有必要对整个数据中心的器件损坏进行及时检测和处理。

目前，传统方式下的数据中心仅对发生告警事件的器件进行检测，并能得到及时处理，但是发生告警事件的器件常会与之相关联的器件存在互相影响，若关联器件不及时检测和处理，也会存在较大的安全隐患。因此，有必要提供一种新的技术方案以解决此技术问题。

发明内容

本发明实施例所要解决的技术问题在于，提供一种基于数据中心的告警事件的全面自愈方法及系统，除了会对告警事件的器件进行检测及处理，还会对该器件相关联的其它器件进行检测，以达到器件全面检测，减少器件故障发生，提高安全性，降低运维成本。

为了解决上述技术问题，本发明实施例提供了一种基于数据中心的告警事件的全面自愈方法，所述方法包括以下步骤：

获取数据中心的运维数据，并基于所述运维数据，对告警事件是否存在进行检测；

若检测到存在告警事件，则确定出发生告警事件的器件及其对应的所有关联器件，并结合所述运维数据，得到各关联器件的相关数据；

将各关联器件的相关数据分别与预定的故障临界触发条件组合进行对比，筛选出满足所述预定的故障临界触发条件组合之中任一条件的关联器件。

其中，对发生告警事件的器件进行确定的步骤，具体为：

从所述运维数据中，提取告警事件数据，并根据预设的屏蔽策略对所述告警事件数据进行屏蔽处理，和/或根据预设的收敛策略对所述告警事件数据进行收敛处理，且进一步从屏蔽处理和/或收敛处理后的告警事件数据中，得到用于识别发生告警事件器件的识别信息，以确定出发生告警事件的器件；其中，所述识别信息包括设备ID号和设备名称。

其中，将与所述发生告警事件器件具有工作逻辑关系的器件确定为各关联器件；其中，所述工作逻辑关系包括电连接、数据传输和数据交互。

其中，基于所述发生告警事件器件的识别信息，将与所述发生告警事件器件具有相同设备名称的器件确定为各关联器件。

其中，若所述发生告警事件的器件为发热器件，则各关联器件为所述发生告警事件的器件的相邻器件；其中，所述发热器件包括电源和电阻。

其中，所述将各关联器件的相关数据分别与预定的故障临界触发条件组合进行对比，筛选出满足所述预定的故障临界触发条件组合之中任一条件的关联器件的具体步骤包括：

确定各关联器件的相关数据，包括各关联器件的工作电流、工作电压、工作功率、温度和工作时长；

确定预定的故障临界触发条件组合，包括第一条件、第二条件、第三条件、第四条件和第五条件；其中，所述第一条件为关联器件的工作电流是否大于预设的安全电流；所述第二条件为关联器件的工作电压是否大于预设的安全电压；所述第三条件为关联器件的工作功率是否大于预设的安全功率；所述第四条件为关联器件的温度是否大于预设的安全温度；所述第五条件为关联器件的工作时长是否大于预设的安全时长；

将各关联器件的相关数据分别与所述预定的故障临界触发条件组合进行对比，并进一步筛选出满足所述第一条件、所述第二条件、所述第三条件、所述第四条件及所述第五条件之中任一个时的关联器件，且将所有筛选出的关联器件输出。

其中，所述方法进一步包括：

将所述发生告警事件器件的相关数据和所筛选出的各关联器件的相关数据发送给工作人员，并待接收到工作人员对所述发生告警事件器件和所筛选出的各关联器件的处理措施后，执行所接收的处理措施，以使所述发生告警事件器件恢复正常，且使所筛选出的各关联器件的相关数据均不满足所述预定的故障临界触发条件组合为止。

本发明实施例还提供了一种基于数据中心的告警事件的全面自愈系统，包括：

检测单元，用于获取数据中心的运维数据，并基于所述运维数据，对告警事件是否存在进行检测；

获取单元，用于若检测到存在告警事件，则确定出发生告警事件的器件及其对应的所有关联器件，并结合所述运维数据，得到各关联器件的相关数据；

筛选单元，用于将各关联器件的相关数据分别与预定的故障临界触发条件组合进行对比，筛选出满足所述预定的故障临界触发条件组合之中任一条件的关联器件。

其中，所述筛选单元包括：

第一获取模块，用于确定各关联器件的相关数据，包括各关联器件的工作电流、工作电压、工作功率、温度和工作时长；

第二获取模块，用于确定预定的故障临界触发条件组合，包括第一条件、第二条件、第三条件、第四条件和第五条件；其中，所述第一条件为关联器件的工作电流是否大于预设的安全电流；所述第二条件为关联器件的工作电压是否大于预设的安全电压；所述第三条件为关联器件的工作功率是否大于预设的安全功率；所述第四条件为关联器件的温度是否大于预设的安全温度；所述第五条件为关联器件的工作时长是否大于预设的安全时长；

筛选模块，用于将各关联器件的相关数据分别与所述预定的故障临界触发条件组合进行对比，并进一步筛选出满足所述第一条件、所述第二条件、所述第三条件、所述第四条件及所述第五条件之中任一个时的关联器件，且将所有筛选出的关联器件输出。

其中，还包括：

处理单元，用于将所述发生告警事件器件的相关数据和所筛选出的各关联器件的相关数据发送给工作人员，并待接收到工作人员对所述发生告警事件器件和所筛选出的各关联器件的处理措施后，执行所接收的处理措施，以使所述发生告警事件器件恢复正常，且使所筛选出的各关联器件的相关数据均不满足所述预定的故障临界触发条件组合为止。

实施本发明实施例，具有如下有益效果：

1、本发明通过实时监控数据中心的所有器件的运维数据，并通过运维数据检测到器件有产生告警事件时，获取与该器件的关联器件的信息，并逐一对关联器件进行检测，以达到器件全面检测，因此除了会对告警事件的器件进行检测及处理，还会对该器件相关联的其它器件进行检测；

2、本发明从安全性来讲，减少了器件产生故障的效率，器件烧坏的情况变少，对工作人员的安全也是进一步提高，故障发生率远比之前低(如故障发生率降低60％以上)，同时从运维成本上来讲，减少器件的损坏，不需频繁更换器件，人工巡检的次数降低，人力投入成本大大减低，使得运维成本大大降低，极大地促进经济发展。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，根据这些附图获得其他的附图仍属于本发明的范畴。

图1为本发明实施例提供的一种基于数据中心的告警事件的全面自愈方法的流程图；

图2为本发明实施例提供的一种基于数据中心的告警事件的全面自愈系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

如图1所示，为本发明实施例中，提供的一种基于数据中心的告警事件的全面自愈方法，所述方法包括以下步骤：

步骤S1、获取数据中心的运维数据，并基于所述运维数据，对告警事件是否存在进行检测；

具体过程为，实时监控数据中心所有器件的运维数据，该运维数据包括设备数据及其对应发生的事件数据；其中，设备数据包括但不限于设备的ID号、名称、工作电流、工作电压、工作功率、温度、工作时长等；事件数据包括但不限于告警事件数据、调度事件数据、入侵事件数据、访问事件数据、修改事件数据等。

因此，可以基于所有器件的运维数据，对告警事件是否存在进行检测。

步骤S2、若检测到存在告警事件，则确定出发生告警事件的器件及其对应的所有关联器件，并结合所述运维数据，得到各关联器件的相关数据；

具体过程为，首先，在检测到存在告警事件时，还需进一步对重复多次的告警事件或非有效的告警事件进行处理，此时通过设置屏蔽策略来屏蔽非有效的告警事件，以及通过设置收敛策略来仅在重复多次的告警事件中保留一次告警事件。

在一个例子中，从运维数据中，提取告警事件数据，并根据预设的屏蔽策略对告警事件数据进行屏蔽处理，和/或根据预设的收敛策略对所述告警事件数据进行收敛处理，且进一步从屏蔽处理和/或收敛处理后的告警事件数据中，得到用于识别发生告警事件器件的识别信息，以确定出发生告警事件的器件；其中，识别信息包括设备ID号和设备名称。

其次，发生告警事件的器件的关联器件的确定有多种方式，具体如下：

(1)将与发生告警事件器件具有工作逻辑关系的器件确定为各关联器件；其中，工作逻辑关系包括电连接、数据传输和数据交互。此时，发生告警事件器件与关联器件同时正在工作，会对关联器件发生影响。例如，某一信号经过第一器件、第二器件、第三器件、第四器件、......、第n器件进行处理，而当第三器件发生告警事件时，则确定的关联器件包括第一器件、第二器件、第四器件、......、第n器件。

(2)基于发生告警事件器件的识别信息，将与发生告警事件器件具有相同设备名称的器件确定为各关联器件。此时，说明同型号的器件容易出故障，需对相同型号的器件进行检测来避免同样告警再次发生。

(3)若发生告警事件的器件为发热器件，则各关联器件为发生告警事件的器件的相邻器件；其中，发热器件包括电源和电阻。此时，器件发热而产生告警事件，这势必会影响周围设备，需对相邻设备进行检测。

最后，从运维数据中，得到各关联器件的相关数据；其中，各关联器件的相关数据包括设备数据，该设备数据包括但不限于设备的ID号、名称、工作电流、工作电压、工作功率、温度、工作时长等。

步骤S3、将各关联器件的相关数据分别与预定的故障临界触发条件组合进行对比，筛选出满足所述预定的故障临界触发条件组合之中任一条件的关联器件。

具体过程为，首先，确定各关联器件的相关数据，包括各关联器件的工作电流、工作电压、工作功率、温度和工作时长；

其次，确定预定的故障临界触发条件组合，包括第一条件、第二条件、第三条件、第四条件和第五条件；其中，第一条件为关联器件的工作电流是否大于预设的安全电流；第二条件为关联器件的工作电压是否大于预设的安全电压；第三条件为关联器件的工作功率是否大于预设的安全功率；第四条件为关联器件的温度是否大于预设的安全温度；第五条件为关联器件的工作时长是否大于预设的安全时长；应当说明的是，安全电流、安全电压、安全功率、安全温度和安全时长都是按照各器件的实际需要进行相应设计的；

最后，将各关联器件的相关数据分别与预定的故障临界触发条件组合进行对比，并进一步筛选出满足第一条件、第二条件、第三条件、第四条件及第五条件之中任一个时的关联器件，且将所有筛选出的关联器件输出。

步骤S4、将所述发生告警事件器件的相关数据和所筛选出的各关联器件的相关数据发送给工作人员，并待接收到工作人员对所述发生告警事件器件和所筛选出的各关联器件的处理措施后，执行所接收的处理措施，以使所述发生告警事件器件恢复正常，且使所筛选出的各关联器件的相关数据均不满足所述预定的故障临界触发条件组合为止。

具体过程为，首先，将发生告警事件器件的相关数据和所筛选出的各关联器件的相关数据发送给工作人员，使得工作人员关注这些器件，提前预知这些器件产生告警，提前处理。应当说明的是，这些工作人员都是处于上班状态(可通过查询打卡的工卡来判断)，且所懂得领域刚好与发生告警事件的设备的领域相同。

然后，工作人员会对发生告警事件器件和所筛选出的各关联器件制定相应的处理措施，并待接收到工作人员对发生告警事件器件和所筛选出的各关联器件的处理措施后，执行所接收的处理措施，以使发生告警事件器件恢复正常，且使所筛选出的各关联器件的相关数据均不满足预定的故障临界触发条件组合为止，即所有器件都能消除告警。

如图2所示，为本发明实施例中，提供的一种基于数据中心的告警事件的全面自愈系统，包括：

检测单元110，用于获取数据中心的运维数据，并基于所述运维数据，对告警事件是否存在进行检测；

获取单元120，用于若检测到存在告警事件，则确定出发生告警事件的器件及其对应的所有关联器件，并结合所述运维数据，得到各关联器件的相关数据；

筛选单元130，用于将各关联器件的相关数据分别与预定的故障临界触发条件组合进行对比，筛选出满足所述预定的故障临界触发条件组合之中任一条件的关联器件。

其中，所述筛选单元130包括：

第一获取模块1301，用于确定各关联器件的相关数据，包括各关联器件的工作电流、工作电压、工作功率、温度和工作时长；

第二获取模块1302，用于确定预定的故障临界触发条件组合，包括第一条件、第二条件、第三条件、第四条件和第五条件；其中，所述第一条件为关联器件的工作电流是否大于预设的安全电流；所述第二条件为关联器件的工作电压是否大于预设的安全电压；所述第三条件为关联器件的工作功率是否大于预设的安全功率；所述第四条件为关联器件的温度是否大于预设的安全温度；所述第五条件为关联器件的工作时长是否大于预设的安全时长；

筛选模块1303，用于将各关联器件的相关数据分别与所述预定的故障临界触发条件组合进行对比，并进一步筛选出满足所述第一条件、所述第二条件、所述第三条件、所述第四条件及所述第五条件之中任一个时的关联器件，且将所有筛选出的关联器件输出。

其中，还包括：

处理单元140，用于将所述发生告警事件器件的相关数据和所筛选出的各关联器件的相关数据发送给工作人员，并待接收到工作人员对所述发生告警事件器件和所筛选出的各关联器件的处理措施后，执行所接收的处理措施，以使所述发生告警事件器件恢复正常，且使所筛选出的各关联器件的相关数据均不满足所述预定的故障临界触发条件组合为止。

实施本发明实施例，具有如下有益效果：

值得注意的是，上述系统实施例中，所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于数据中心的告警事件的全面自愈方法，其特征在于，所述方法包括以下步骤：

将各关联器件的相关数据分别与预定的故障临界触发条件组合进行对比，筛选出满足所述预定的故障临界触发条件组合之中任一条件的关联器件；

其中，将与发生告警事件器件具有工作逻辑关系的器件确定为各关联器件；所述工作逻辑关系包括电连接、数据传输和数据交互；

其中，基于所述发生告警事件器件的识别信息，将与所述发生告警事件器件具有相同设备名称的器件确定为各关联器件；

其中，所述发生告警事件的器件为发热器件，则各关联器件为所述发生告警事件的器件的相邻器件；其中，所述发热器件包括电源和电阻。

2.如权利要求1所述的基于数据中心的告警事件的全面自愈方法，其特征在于，对发生告警事件的器件进行确定的步骤，具体为：

3.如权利要求1所述的基于数据中心的告警事件的全面自愈方法，其特征在于，所述将各关联器件的相关数据分别与预定的故障临界触发条件组合进行对比，筛选出满足所述预定的故障临界触发条件组合之中任一条件的关联器件的具体步骤包括：

4.如权利要求1所述的基于数据中心的告警事件的全面自愈方法，其特征在于，所述方法进一步包括：

5.一种基于数据中心的告警事件的全面自愈系统，其特征在于，包括：

筛选单元，用于将各关联器件的相关数据分别与预定的故障临界触发条件组合进行对比，筛选出满足所述预定的故障临界触发条件组合之中任一条件的关联器件；

其中，各关联器件为与发生告警事件器件具有工作逻辑关系的器件；所述工作逻辑关系包括电连接、数据传输和数据交互；

其中，各关联器件为基于所述发生告警事件器件的识别信息，将与所述发生告警事件器件具有相同设备名称的器件；

其中，各关联器件为所述发生告警事件的器件为发热器件时其相邻器件；其中，所述发热器件包括电源和电阻。

6.如权利要求5所述的基于数据中心的告警事件的全面自愈系统，其特征在于，所述筛选单元包括：

7.如权利要求5所述的基于数据中心的告警事件的全面自愈系统，其特征在于，还包括：