CN107395392A

CN107395392A - 一种告警分析方法和系统

Info

Publication number: CN107395392A
Application number: CN201710422935.2A
Authority: CN
Inventors: 陈朱尧; 李从庆
Original assignee: CHENGDU SHIDAKE INFORMATION TECHNOLOGY Co Ltd
Current assignee: CHENGDU SHIDAKE INFORMATION TECHNOLOGY Co Ltd
Priority date: 2017-06-07
Filing date: 2017-06-07
Publication date: 2017-11-24

Abstract

本发明实施例公开了一种告警分析方法及系统，属于互联网技术领域。该告警分析方法包括：步骤1：获取每个服务器的多个监控项。步骤2：根据预设的时间间隔获取每个服务器对应的发生告警信息的监控项。步骤3：判断发生告警信息的监控项是否相同。步骤4：当判断结果为不相同时，则根据服务器之间的连接关系建立告警信息关系树。步骤5：提取告警信息关系树顶端的告警信息，形成告警源。本发明通过根据服务器之间的连接关系建立告警信息关系树，提取告警信息关系树顶端的告警信息形成告警源的技术方案，避免维护人员对告警信息处理难的技术问题，实现了快速准确的对告警源进行定位的技术效果。

Description

一种告警分析方法和系统

技术领域

本发明涉及互联网技术领域，特别涉及一种告警分析方法及系统。

背景技术

随着互联网时代发展，各个行业和IT都有或多或少的联系，现在很多企业都有自己服务器，运维人员需要对服务器的运行情况进行及时了解，于是设定了很多监控项来监控服务器状态，当服务器监控项告警时会通过邮件，短信，电话等方式通知运维人员进行处理，但是这些告警信息都是独立的，当告警信息纷繁复杂的时候，告警信息数量就会变得越来越多，导致运维人员会收到很多告警信息，对告警信息的处理就变得越来越力不从心，普通的收敛如去重，合并等方式仅能减少告警信息的数量，但是这些独立的告警信息没办法给予运维人员处理故障的指导方向，导致运维人员在处理故障的时候往往凭经验入手，从而没办法在短时间内快速定位问题。

在实现本发明的过程中，发明人发现至少存在如下问题：

1.无法快速准确的获知告警信息；

2.随着告警信息的增加，在增大工作人员的工作量的同时，容易出现告警信息的错报和漏报；

3.无法及时获知告警源，从根本上解决问题。

发明内容

本发明的目的是提供快速准确获知告警信息，在减轻工作人员工作量的同时，避免警告信息的错报和漏报，并通过及时的获知告警源，从根本上解决问题。

为实现上述目的，根据本发明的一个方面，本发明提供了一种告警分析方法，该方法包括：步骤1：获取每个服务器的多个监控项。步骤2：根据预设的时间间隔获取每个所述服务器对应的发生告警信息的所述监控项。步骤3：判断发生所述告警信息的所述监控项是否相同。步骤4：当判断结果为不相同时，则根据所述服务器之间的连接关系建立告警信息关系树。步骤5：提取所述告警信息关系树顶端的所述告警信息，形成告警源。

通过本实施例提供的技术方案，不需要人工方式对所有发生告警信息的服务器都通过邮件，短信或电话等方式告知，而是直接找到发生告警信息的服务器的告警源，对告警源对应的服务器发送邮件，短信。一方面，大大减少了工作人员的工作量；另一面，加快了处理的速度，避免了人为因素的影响，从而提高了准确度；再一方面，直接对告警信息进行排查，找到告警源，从根本解决问题。

进一步地，步骤2包括：步骤21：遍历每个所述服务器的多个所述监控项。步骤22：根据多个所述监控项之间预先设定的控制关系建立监控项关系树。步骤23：根据所述监控项关系树确定告警信息。

通过本实施例提供的技术方案，通过在每个服务器内部建立监控项关系树，根据监控项关系树确定告警信息，使得告警信息的确定更加快速和精准。

进一步地，步骤3后还包括：步骤6：当判断结果为相同时，则合并所述告警信息，并根据每个所述告警信息的告警时间的先后顺序，建立多个所述服务器之间的发生告警信息的所述监控项之间的上下级关系，获取上下级关系的发生告警信息的所述监控项之间的当次置信分数值。步骤7：将所述当次置信分数值与预先设置的置信分数阈值进行比较。步骤8：当所述当次置信分数值大于所述置信分数阈值，且所述上下级关系未保存在所述告警信息关系树时，则将所述上下级关系加入所述告警信息关系树。或者，步骤9：当所述当次置信分数值小于所述置信分数阈值，且所述上下级关系已保存在所述告警信息关系树时，则将所述上下级关系从所述告警信息关系树中删除。

通过本实施例提供的技术方案，实现了当监控项相同的时，既快又准的找到告警信息的告警源。

进一步地，步骤6后还包括：步骤61：当所述上下级关系中的上级告警项出现告警信息时，则判断预先设定的时间阈值内所述上下级关系中的下级告警项是否出现告警信息。步骤62：当判断结果为否时，则所述当次置信分数值等于前次置信分数值减m。步骤63：当判断结果为是时，则在所述当次置信分数值等于所述前次置信分数值加m。其中，m为大于零的数值。

进一步地，所述步骤63还包括：步骤64：若所述当次置信分数值在预定时间内变化次数大于预设的变化阈值，则将所述上下级关系加入黑名单。

通过本实施例提供的技术方案，当置信分数值的变化过于频繁时，则直接将上下级关系加入黑名单，通过其它方式进行判断，以确保告警源的真实可靠性。

根据本发明的另一个方面，本发明还提供了一种告警分析系统，该系统包括：第一获取模块：用于获取每个服务器的多个监控项。第二获取模块：用于根据预设的时间间隔获取每个所述服务器对应的发生告警信息的所述监控项。第一判断模块：用于判断发生所述告警信息的所述监控项是否相同。第一建立模块：用于当判断结果为不相同时，则根据所述服务器之间的连接关系建立告警信息关系树。提取模块：用于提取所述告警信息关系树顶端的所述告警信息，形成告警源。

进一步地，第二获取模块包括：遍历单元：用于遍历每个所述服务器的多个所述监控项。监控项关系树单元：用于根据多个所述监控项之间预先设定的控制关系建立监控项关系树。确定单元：根据所述监控项关系树确定告警信息。

进一步地，该系统还包括：合并模块：用于当判断结果为相同时，则合并所述告警信息。第二建立模块：用于根据每个所述告警信息的告警时间的先后顺序，建立多个所述服务器之间的发生告警信息的所述监控项之间的上下级关系，获取上下级关系的发生告警信息的所述监控项之间的当次置信分数值。比较模块：用于将所述当次置信分数值与预先设置的置信分数阈值进行比较。加入模块：用于当所述当次置信分数值大于所述置信分数阈值，且所述上下级关系未保存在所述告警信息关系树时，则将所述上下级关系加入所述告警信息关系树。或者，删除模块：用于当所述当次置信分数值小于所述置信分数阈值，且所述上下级关系已保存在所述告警信息关系树时，则将所述上下级关系从所述告警信息关系树中删除。

进一步地，该系统还包括：第二判断模块：用于当所述上下级关系中的上级告警项出现告警信息时，则判断预先设定的时间阈值内所述上下级关系中的下级告警项是否出现告警信息。减法模块：用于当判断结果为否时，则在所述当次置信分数值等于前次置信分数值减m。加法模块：用于当判断结果为是时，则在所述当次置信分数值等于所述前次置信分数值加m。其中，m为大于零的数值。

进一步地，该系统还包括：黑名单模块：用于若所述当次置信分数值在预定时间内变化次数大于预设的变化阈值，则将所述上下级关系加入黑名单。

本发明实施例的有益效果在于，由于采用了获取每个服务器中的多个监控项，每隔一定的时间获取每个服务器对应的发生告警信息的监控项，判断发生告警信息的监控项是不是相同，如果不相同，则根据建立的告警信息关系树提取得到告警源的技术方案，避免了通过人工方式对每个告警信息进行获取，并将每个告警信息发送至相应的服务器的技术问题，实现了快速且准确的获知告警信息，且根据告警信息得到告警源，从根本得到告警信息的技术效果。

附图说明

图1是本发明实施例提供的一种告警分析方法的流程示意图；

图2是本发明另一实施例提供的一种告警分析方法的流程示意图；

图3是本发明另一实施例提供的一种告警分析方法的流程示意图；

图4是本发明另一实施例提供的一种告警分析方法的流程示意图；

图5是本发明另一实施例提供的一种告警分析方法的流程示意图；

图6是本发明实施例提供的一种告警分析系统的结构示意图；

图7是本发明另一实施例提供的一种告警分析系统的结构示意图；

图8是本发明另一实施例提供的一种告警分析系统的结构示意图；

图9是本发明另一实施例提供的一种告警分析系统的结构示意图；

图10是本发明另一实施例提供的一种告警分析系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

请参阅图1，图1是本发明实施例提供的一种告警分析方法的流程示意图。

如图1所示，在本发明的实施例提供了一种告警分析方法，该方法包括：步骤1：获取每个服务器的多个监控项。步骤2：根据预设的时间间隔获取每个服务器对应的发生告警信息的监控项。步骤3：判断监控项是否相同。步骤4：当判断结果为不相同时，则根据服务器之间的连接关系建立告警信息关系树。步骤5：提取所述告警信息关系树顶端的告警信息，形成告警源。

在本实施例中，有多个服务器，每个服务器都有多个监控项，监控项可能相同，也可能不相同。预先设定时间间隔，间隔时间可以是以秒为单位，也可以是以分钟为单位。服务器发生告警信息，是由于服务器内的某个或者某些监控项发生了告警信息。根绝预先设定的时间间隔获取每个服务器对应的发生告警信息的监控项。例如，有三个服务器，分别标号为：服务器1、服务器2和服务器3。其中，服务器1有两个监控项，分别是A1和A2；服务器2有三个监控项，分别为A1、A2和A3；服务器3有五个监控项，分别为A1、A2、A4、A5和A7。预先设定的时间间隔为五秒，也就是说，每隔五秒的时间获取服务器1、服务器2和服务器3中的发生告警信息的监控项。例如，服务器1中的A1发生了告警信息；服务器2中的A3发生了告警信息；服务器3中的A5发生了告警信息。判断发生告警的监控项是否相同，明显地，服务器1、服务器2和服务器3中的发生告警信息的监控项并不相同。则根据三个服务器中间的连接关系建立告警信息关系树。可以理解的，在录入需要监控的三个服务器时，录入三个服务器的信息，信息可以包括：主机名、IP地址和登录方式等等。在将三个服务器的信息录入后，可随机选取服务器1作为起点，扫描该服务器网络的流通方向，得到与该服务器由网络连接的其它服务器的IP地址，以及它们之间的连接端口号和网络流量走向。如果服务器1主动发起请求，服务器2被动进行了响应，则在告警信息关系树中，服务器1自然是告警信息关系树的顶端。优选地，在服务器2响应之后，扫描服务器2的IP地址是否已经被录入，如果能扫描到，则标记为内部服务器，如果无法扫描，则标记为外部服务器。如果是外部服务器，则可以通过其它方式进行处理。如果是内部服务器，优选地，可以通过深度优先算法，建立多个服务器中间的连接关系，从而确认告警信息关系树。深度优先算法如下：

可以理解的是，根据三个服务器之间的连接关系建立告警信息关系树，告警信息关系树的从上至下的依次是：服务器1-服务器2-服务器3。则告警源就是服务器1中的告警信息。

在现有技术中，都是通过工作人员对多个服务器的运行情况进行监控，当服务器出现告警信息时，则工作人员将告警信息通过邮件、短信和电话等方式相应的服务器。此时，告警信息之间是相互独立的，尤其当告警信息数量增多的时候，工作人员的工作量急剧增加，严重影响处理告警信息的效率。而通过本实施例的技术方案，既可以减轻工作人员的工作量，提高工作效率，提高获知告警信息的准确度。更重要的是，通过本实施例的技术方案，可以从源头找到问题，找到告警源，进而根据告警源从根本上解决问题。

请参阅图2，图2是本发明另一实施例提供的一种告警分析方法的流程示意图。

如图2所示，步骤2包括：步骤21：遍历每个服务器的多个监控项。步骤22：根据多个监控项之间预先设定的控制关系建立监控项关系树。步骤23：根据监控项关系树确定告警信息。

在本实施例中，每个服务器对应多个监控项，根据多个监控项之间的关系建立监控项关系树。例如，服务器1中有三个监控项，分别为：A1、A2和A3，可通过人工初步设定三个监控项之间的影响关系，及依次对三个监控项进行判断，判断一个监控项告警时是否会引起其它监控项也告警。如果A1发生了告警后，A2会被A1影响也发生告警，而A2发生了告警后，A3会被A2影响也发生告警。此时，监控项的关系树就形成了，从上而下依次是A1-A2-A3。

通过本实施例的技术方案，通过先确定每个服务器中的监控项之间监控项关系树，从而确定每个服务器的告警信息，使得获取告警信息，得到告警源的效率有了进一步的提高。

请参阅图3，图3是本发明另一实施例提供的一种告警分析方法的流程示意图。

如图3所示，步骤3后还包括：步骤6：当判断结果为相同时，则合并所述告警信息，并根据每个告警信息的告警时间的先后顺序，建立多个服务器之间的发生告警信息的监控项之间的上下级关系，获取上下级关系的发生告警信息的监控项之间的当次置信分数值。步骤7：将当次置信分数值与预先设置的置信分数阈值进行比较。步骤8：当当次置信分数值大于置信分数阈值，且上下级关系未保存在告警信息关系树时，则将上下级关系加入告警信息关系树。或者，步骤9：当当次置信分数值小于置信分数阈值，且上下级关系已保存在告警信息关系树时，则将上下级关系从告警信息关系树中删除。

在本实施例中，例如，服务器1中的A1发生了告警信息；服务器2中的A1发生了告警信息，即，服务器1和服务器2中发声告警信息的监控项相同，则将监控项进行合并。并根据服务器1中A1和据服务器2发生告警信息的时间先后顺序，建立两个服务器中的两个监控项之间的上下级关系。获取两个监控项之间的当次置信分数值，如，当次置信分数值为5，则将当次置信分数值5与预先设置的置信分数阈值进行比较，如果预先设置的置信分数阈值为3，即当次置信分数值5大于预先设置的置信分数阈值3，且上下级关系为保存在告警信息关系树中，则将服务器1和服务器2加入告警信息关系树。如果，预先设置的置信分数阈值为10，即当次置信分数值5小于预先设置的置信分数阈值10，且该上下级关系为保存在告警信息关系树中，则将服务器1和服务器2从告警信息关系树中删除。

本实施例给出了当发生告警信息的监控项为相同监控项的时候的技术方，充分考虑了发生告警信息的不确定性，实现更精准的获知告警源。

请参阅图4，图4是本发明另一实施例提供的一种告警分析方法的流程示意图。

如图4所示，步骤6后还包括：步骤61：当上下级关系中的上级告警项出现告警信息时，则判断预先设定的时间阈值内上下级关系中的下级告警项是否出现告警信息。步骤62：当判断结果为否时，则当次置信分数值等于前次置信分数值减m。步骤63：当判断结果为是时，则当次置信分数值等于前次置信分数值加m。其中，m为大于零的数值。

在本实施例中，是对上一实施例的更进一步细化。当上下级关系中的上级告警项出现告警信息时，通过预先设定的时间阈值十秒，在判断在十秒内，判断下级关系中的下级告警项是否出现告警信息。如，服务器1中的告警项A1出现告警信息，如果十秒内，服务器2中的告警项A1并没有出现告警信息，则当次置信分数值等于前次置信分数值5减去m，此时m取值1，则当次置信分数值等于4。如果十秒内，服务器2中的告警项A1也出现了告警信息，则当次置信分数值等于前次置信分数值5加上m，则当次置信分数值等于6。

请参阅图5，图5是本发明另一实施例提供的一种告警分析方法的流程示意图。

如图5所示，步骤63后还包括：步骤64：若所述当次置信分数值在预定时间内变化次数大于预设的变化阈值，则将所述上下级关系加入黑名单。

在本实施例中，当次置信分数在一定时间内变化频繁，即加和/或减m的次数过于频繁，则直接将该上下级关系加入黑名单，不再进行判断。可通过人工方式进行审核后，再判断是否将该上下级关系从黑名单中间删除。

同过本实施例提供的技术方案，可以避免进入反复无常的死区，从而快速精准的获知告警源。

根据本发明的另一方面，本发明提供了与上述方法相对应的一种告警分析系统。

详见图6，图6是本发明实施例提供的一种告警分析系统的结构示意图。

如图6所示，该系统包括：第一获取模块：用于获取每个服务器的多个监控项。第二获取模块：用于根据预设的时间间隔获取每个服务器对应的发生告警信息的监控项。第一判断模块：用于判断发生告警信息的监控项是否相同。第一建立模块：用于当判断结果为不相同时，则根据服务器之间的连接关系建立告警信息关系树。提取模块：用于提取告警信息关系树顶端的告警信息，形成告警源。

详见图7，图7是本发明另一实施例提供的一种告警分析系统的结构示意图。

如图7所示，第二获取模块包括：遍历单元：用于遍历每个服务器的多个所述监控项。监控项关系树单元：用于根据多个监控项之间预先设定的控制关系建立监控项关系树。确定单元：根据监控项关系树确定告警信息。

详见图8，图8是本发明另一实施例提供的一种告警分析系统的结构示意图。

如图8所示，该系统还包括：合并模块：用于当判断结果为相同时，则合并告警信息。第二建立模块：用于根据每个告警信息的告警时间的先后顺序，建立多个服务器之间的发生告警信息的监控项之间的上下级关系，获取上下级关系的发生告警信息的监控项之间的当次置信分数值。比较模块：用于将当次置信分数值与预先设置的置信分数阈值进行比较。加入模块：用于当当次置信分数值大于置信分数阈值，且上下级关系未保存在告警信息关系树时，则将上下级关系加入告警信息关系树。或者，删除模块：用于当当次置信分数值小于所述置信分数阈值，且上下级关系已保存在告警信息关系树时，则将上下级关系从告警信息关系树中删除。

详见图9，图9是本发明另一实施例提供的一种告警分析系统的结构示意图。

如图9所示，该系统还包括：第二判断模块：用于当上下级关系中的上级告警项出现告警信息时，则判断预先设定的时间阈值内上下级关系中的下级告警项是否出现告警信息。减法模块：用于当判断结果为否时，则在当次置信分数值等于前次置信分数值减m。加法模块：用于当判断结果为是时，则在当次置信分数值等于前次置信分数值加m。其中，m为大于零的数值。

详见图10，图10是本发明另一实施例提供的一种告警分析系统的结构示意图。

如图10所示，该系统还包括：黑名单模块：用于若所述当次置信分数值在预定时间内变化次数大于预设的变化阈值，则将所述上下级关系加入黑名单。

本发明通过判断根据预设的时间间隔获取的每个服务器对应的发生告警信息的监控项是否相同，当监控项不同的时候，则根据服务器之间的连接关系建立告警信息关系树，提取告警信息关系树顶端的告警信息，形成告警源的技术方案，避免了告警信息错报或者漏报的技术问题，实现了快速、精准的获取告警信息，且得到告警源，从根本上找到问题并解决问题的技术效果。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种告警分析方法，其特征在于，所述方法包括：

步骤1：获取每个服务器的多个监控项；

步骤2：根据预设的时间间隔获取每个所述服务器对应的发生告警信息的所述监控项；

步骤3：判断发生所述告警信息的所述监控项是否相同；

步骤4：当判断结果为不相同时，则根据所述服务器之间的连接关系建立告警信息关系树；

步骤5：提取所述告警信息关系树顶端的所述告警信息，形成告警源。

2.根据权利要求1所述的一种告警分析方法，其特征在于，所述步骤2包括：

步骤21：遍历每个所述服务器的多个所述监控项；

步骤22：根据多个所述监控项之间预先设定的控制关系建立监控项关系树；

步骤23：根据所述监控项关系树确定告警信息。

3.根据权利要求1或2所述的一种告警分析方法，其特征在于，步骤3后还包括：

步骤6：当判断结果为相同时，则合并所述告警信息，并根据每个所述告警信息的告警时间的先后顺序，建立多个所述服务器之间的发生告警信息的所述监控项之间的上下级关系，获取上下级关系的发生告警信息的所述监控项之间的当次置信分数值；

步骤7：将所述当次置信分数值与预先设置的置信分数阈值进行比较；

步骤8：当所述当次置信分数值大于所述置信分数阈值，且所述上下级关系未保存在所述告警信息关系树时，则将所述上下级关系加入所述告警信息关系树；或者，

步骤9：当所述当次置信分数值小于所述置信分数阈值，且所述上下级关系已保存在所述告警信息关系树时，则将所述上下级关系从所述告警信息关系树中删除。

4.根据权利要求3所述的一种告警分析方法，其特征在于，步骤6后还包括：

步骤61：当所述上下级关系中的上级告警项出现告警信息时，则判断预先设定的时间阈值内所述上下级关系中的下级告警项是否出现告警信息；

步骤62：当判断结果为否时，则所述当次置信分数值等于前次置信分数值减m；

步骤63：当判断结果为是时，则所述当次置信分数值等于所述前次置信分数值加m；

其中，m为大于零的数值。

5.根据权利要求4所述的一种告警分析方法，其特征在于，所述步骤63后还包括：

步骤64：若所述当次置信分数值在预定时间内变化次数大于预设的变化阈值，则将所述上下级关系加入黑名单。

6.一种告警分析系统，其特征在于，所述系统包括：

第一获取模块：用于获取每个服务器的多个监控项；

第二获取模块：用于根据预设的时间间隔获取每个所述服务器对应的发生告警信息的所述监控项；

第一判断模块：用于判断发生所述告警信息的所述监控项是否相同；

第一建立模块：用于当判断结果为不相同时，则根据所述服务器之间的连接关系建立告警信息关系树；

提取模块：用于提取所述告警信息关系树顶端的所述告警信息，形成告警源。

7.根据权利要求6所述的一种告警分析系统，其特征在于，所述第二获取模块包括：

遍历单元：用于遍历每个所述服务器的多个所述监控项；

监控项关系树单元：用于根据多个所述监控项之间预先设定的控制关系建立监控项关系树；

确定单元：根据所述监控项关系树确定告警信息。

8.根据权利要求6或7所述的一种告警分析系统，其特征在于，所述系统还包括：

合并模块：用于当判断结果为相同时，则合并所述告警信息；

第二建立模块：用于根据每个所述告警信息的告警时间的先后顺序，建立多个所述服务器之间的发生告警信息的所述监控项之间的上下级关系，获取上下级关系的发生告警信息的所述监控项之间的当次置信分数值；

比较模块：用于将所述当次置信分数值与预先设置的置信分数阈值进行比较；

加入模块：用于当所述当次置信分数值大于所述置信分数阈值，且所述上下级关系未保存在所述告警信息关系树时，则将所述上下级关系加入所述告警信息关系树；或者，

删除模块：用于当所述当次置信分数值小于所述置信分数阈值，且所述上下级关系已保存在所述告警信息关系树时，则将所述上下级关系从所述告警信息关系树中删除。

9.根据权利要求8所述的一种告警分析系统，其特征在于，所述系统还包括：

第二判断模块：用于当所述上下级关系中的上级告警项出现告警信息时，则判断预先设定的时间阈值内所述上下级关系中的下级告警项是否出现告警信息；

减法模块：用于当判断结果为否时，则在所述当次置信分数值等于前次置信分数值减m；

加法模块：用于当判断结果为是时，则在所述当次置信分数值等于所述前次置信分数值加m；

其中，m为大于零的数值。

10.根据权利要求9所述的一种告警分析系统，其特征在于，所述系统还包括：

黑名单模块：用于若所述当次置信分数值在预定时间内变化次数大于预设的变化阈值，则将所述上下级关系加入黑名单。