CN114490256A

CN114490256A - 一种运维监控系统及方法

Info

Publication number: CN114490256A
Application number: CN202210028361.1A
Authority: CN
Inventors: 谢辉; 赵羚志
Original assignee: Zhuhai Huafa Group Technology Research Institute Co ltd
Current assignee: Zhuhai Huafa Group Technology Research Institute Co ltd
Priority date: 2022-01-11
Filing date: 2022-01-11
Publication date: 2022-05-13

Abstract

本发明涉及运维监控技术领域，具体涉及了一种运维监控系统及方法。包括状态获取模块、日志获取模块、统一日志平台、告警生成模块、日志搜索模块、报错告警模块以及事件记录模块。状态获取模块定时获取接入系统的各个应用程序的关联组件运行状态。日志获取模块获取应用程序的运行日志，并将所有的运行日志都上传至统一日志平台。告警生成模块根据预设的告警规则，当应用程序的关联组件满足告警规则时，生成报错事件并给出告警等级。日志搜索模块从统一日志平台中搜索出产生报错事件的应用程序的运行日志。报错告警模块将报错事件、关联组件的运行状态和运行日志发送给运维人员，事件记录模块记录报错事件和运维人员的运维过程。

Description

一种运维监控系统及方法

技术领域

本发明涉及运维监控技术领域，具体涉及了一种运维监控系统及方法。

背景技术

运行日志是帮助运维人员了解应用运行状态、查找和分析故障根源的重要手段，对于大型企业，由于各个应用监控平台与日志管理系统之间是相互独立，各类日志信息分散，运维人员很难快速获取所需日志，一旦应用发生了故障，运维人员很难得到全面、最新的应用运行信息，难以有效定位故障的具体原因，导致应用故障恢复时间过长等问题。而为了提升运维效率和服务质量，快速有效的定位应用故障发生根源，有必要建设统一的运维监控平台，以完善在应用监控、告警和故障定位与解决的能力。

发明内容

本发明所解决的技术问题在于提供一种运维监控系统及方法，能够将多个应用程序运行日志集中处理，发现报错信息，发送给运维人员，使运维人员能够及时了解，并前往处理。

本发明提供的基础方案：一种运维监控系统，包括状态获取模块、日志获取模块、统一日志平台、告警生成模块、日志搜索模块、报错告警模块以及事件记录模块；

状态获取模块，用于定时获取各个应用程序的关联组件的运行状态；

日志获取模块，用于定时获取各个应用程序的运行日志，上传至统一日志平台；

告警生成模块，预设有告警规则，当应用程序的关联组件的运行状态满足告警规则时，生成报错事件并给出告警等级；

日志搜索模块，用于从统一日志平台搜索产生报错事件的应用程序的运行日志；

报错告警模块，用于将报错事件、关联组件的运行状态和运行日志发送给运维人员；

事件记录模块，用于记录报错事件以及运维人员的运维过程。

本发明的原理及优点在于：获取各个关联组件的运行状态和运行日志，将日志上传至统一日志平台方便查看，根据预先设置好的告警规则，当运行状态满足告警规则时，生成报错事件并给出告警等级，从日志平台获取产生报错事件的应用程序的运行日志。将报错事件、运行日志关联组件运行状态发送给运维人员，当运维人员运维结束后，将报错事件以及运维人员的运维过程进行记录。

相比于现有技术，将各个应用程序的运行状态和运行日志统一进行管理，当出现报错事件时，能够使运维人员快速及时地获取到具有报错事件的应用程序的运行状态和运行日志，帮助运维人员及时全面地获取到最新的应用故障信息，并定位故障根源，提高运维效率。

进一步，所述事件记录模块包括时间记录模块、质量记录模块、综合评定模块以及事件绑定模块。

时间记录模块，用于记录运维人员响应报错事件的响应时间、处理报错事件的处理时间；

质量记录模块，用于记录运维人员的运维质量；

综合评定模块，用于根据运维人员的响应时间、处理时间以及运维质量，给出综合评分；

事件绑定模块，预设有分数阈值，当综合评分高于预设分数阈值时，将该运维人员与其处理的报错事件类型绑定，所述报错告警模块还用于优先向运维人员推送与其绑定的报错事件类型。

响应时间反应了运维人员前往进行处理的速度，处理时间反应了运维人员处理报错事件的效率，运维质量反应了运维人员处理报错事件的技术水平，通过这三个维度给出运维人员的综合评分，若综合评分高于预设的分数阈值，说明运维人员能够熟练地处理该报错事件，优秀地完成任务，因此将该运维人员与其处理的报错事件绑定，之后相同的报错事件，优先向该运维人员推送，从而使运维人员对应自身所擅长的报错事件，提升运维的效率。

进一步，所述告警生成模块给出的告警等级包括低、中、高三个告警等级，所述事件记录模块包括事件状态记录模块，所述事件状态记录模块用于记录报错事件的告警等级随时间推移的变化，并记录变化周期；

所述告警生成模块还用于将随时间推移，告警等级降低的报错事件划分为降级事件，并根据变化周期给出降级时间；

将随时间推移，告警等级提高，或者引发其他报错事件的报错事件划分为升级事件，并根据变化周期给出升级时间。

有的报错事件会随时间的推移，告警等级发生变化，将随时间变化告警等级降低的报错事件划分为降级事件，将随时间变化告警等级提高的报错事件划分为升级时间，并给出变化周期。

进一步，所述报错告警模块在升级事件的告警等级为高级时，向距离最近的运维人员发送该报错事件；

在升级事件的告警等级为中级或低级时，根据所记录的运维人员的响应时间和处理时间，向能够在该报错事件的告警等级提升至下一告警等级前，能够处理完成的运维人员发送该报错事件；

当降级事件的告警等级为低级时，则不向运维人员发送该报错事件。

对于不同等级和类型的报错事件，设置不同的告警规则，当升级事件的告警等级为高级时，此时对于报错事件的处理已经刻不容缓，因此向距离最近的运维人员发送该报错事件。当升级事件为中级或初级时，根据时间记录模块记录的运维人员的响应时间和处理时间，向在该报错事件提升至下一等级前能够完成处理的运维人员发送该报错事件，以避免报错事件升级，引发更多的故障。当降级事件为低级时，其危害影响程度并不严重，便将其过滤，无需进行处理，避免运维人员处理无关紧要的报错事件。

进一步，所述报错告警模块通过邮件的方式向运维人员发送低级报错事件，通过短信的方式发送中级报错事件，通过语音电话的方式发送高级报错事件和升级时间。

对于不同等级的报错事件，通过不同的方式向运维人员发送，使运维人员在接收到消息的同时，便了解到自己需要处理的报错事件是什么等级的报错事件。

进一步，所述报错告警模块包括合并发送模块，所述合并发送模块用于将多个报错事件发送给同一运维人员。

将多个报错事件发送给同一运维人员，提高效率，同时还避免派发给多个运维人员，浪费人力资源。

进一步，所述合并发送模块包括事件合并模块和主机合并模块；

事件合并模块，将相同的报错事件打包合并，发送给同一运维人员；

主机合并模块，将同一主机上的报错事件打包合并，发送给同一运维人员。

将相同的报错事件打包合并，发送给同一运维人员，使运维人员无需花费更多的精力，只需要处理同一问题即可，将同一主机上的报错事件发送给同一运维人员，使运维人员能在处理过程中不用来回奔波。

一种运维监控方法，使用了上述的运维监控系统，包括以下步骤：

状态获取步骤：定时获取各个应用程序的关联组件的运行状态；

告警生成步骤：根据预设的告警规则，当应用程序的关联组件的运行状态满足告警规则时，生成报错事件并给出告警等级；

日志搜索步骤：从统一日志平台获取产生报错事件的应用程序的运行日志；

报错告警步骤：将报错事件、关联组件的运行状态以及运行日志发送给运维人员；

时间记录步骤：记录运维人员响应报错的响应时间、处理报错事件的处理时间；

质量记录步骤：记录运维人员的运维质量；

综合评定步骤：根据运维人员的响应时间、处理时间以及运维质量，给出综合评分；

事件绑定步骤：根据预设的分数阈值，当综合评分高于预设分数阈值时，将该运维人员与其处理的报错事件绑定，之后相同的报错事件优先向该运维人员推送。

获取各个关联组件的运行状态和运行日志，将日志上传至统一日志平台方便查看，根据预先设置好的告警规则，当运行状态满足告警规则时，生成报错事件并给出告警等级，从日志平台获取产生报错事件的应用程序的运行日志。将报错事件、运行日志关联组件运行状态发送给运维人员，当运维人员运维结束后，将报错事件以及运维人员的运维过程进行记录。

进一步，所述事件生成步骤还包括以下步骤：

步骤一：根据报错事件影响的严重程度将报错事件划分为低、中、高三个告警级别的报错事件，并记录报错事件发生的时间以及持续时间；

步骤二：将随时间推移，影响程度变小的报错事件划分为降级事件；

步骤三：将随时间推移，影响程度变大，或者是引发其他报错事件的报错事件划分为升级事件；

步骤四：分别通过邮件、短信、电话的方式，向运维人员发送告警级别为低、中、高的报错事件；

步骤五：将告警等级为高级的升级事件，发送给距离最近的运维人员；

步骤六：将告警等级为中级或低级的升级事件，根据记录的运维人员的响应时间和处理时间，发送给能够在报错事件的告警等级提升至下一告警等级前，能够处理完成的运维人员；

步骤七：将告警等级为低级的降级事件过滤，不向运维人员发送。

当升级事件的告警等级为高级时，此时对于报错事件的处理已经刻不容缓，因此向距离最近的运维人员发送该报错事件。当升级事件为中级或初级时，根据时间记录模块记录的运维人员的响应时间和处理时间，向在该报错事件提升至下一等级前能够完成处理的运维人员发送该报错事件，以避免报错事件升级，引发更多的故障。当降级事件为低级时，其危害影响程度并不严重，便将其过滤，无需进行处理，避免运维人员处理无关紧要的报错事件。

进一步，所述报错告警步骤还包括以下步骤：

步骤一：获取与发送给运维人员的报错事件，处于同一主机上的其他报错事件；

步骤二：将发生在同一主机上的报错事件发送给该运维人员；

步骤三：获取附近与发送给运维人员的报错事件相同的其他报错事件；

步骤四：将附近的相同报错事件发送给该运维人员。

附图说明

图1为本发明实施例一种运维监控系统的逻辑框图。

具体实施方式

下面通过具体实施方式进一步详细说明：

实施例基本如附图1所示：

本实施例的一种运维监控系统包括状态获取模块、日志获取模块、统一日志平台、告警生成模块、日志搜索模块、报错告警模块以及事件记录模块。

状态获取模块，定时获取各个应用程序的各个关联组件的运行状态，具体的，每隔5分钟进行一次获取，在本实施例中，获取的内容包括应用运行状态、中间件运行状态、计算机CPU状态、计算机内存状态、数据库状态、磁盘读写延迟、磁盘占用率、主机温度、网络上下行流量。

日志获取模块，从各个应用的日志审计平台获取应用的运行日志，并将日志上传至统一日志平台。

告警生成模块，预设有告警规则，当应用程序的关联组件运行状态满足告警规则时，生成报错事件，并给出告警等级。具体的，在本实施例中，所预设的告警规则包括：CPU负载过高、主机物理部件温度过高、磁盘读延迟过高、磁盘写延迟过高、磁盘读取速率过高、磁盘写入速率过高、主机状态异常、网络下行流量过高、网络上行流量过高、磁盘使用率超过百分之80％。当运行状态满足上述规则之一的，便会生成报错事件，并且根据影响程度不同，将告警等级分为了，低、中、高三个告警等级。

日志搜索模块，在统一日志平台中搜索出产生报错应用的运行日志。

报错告警模块，将报错事件、关联组件的运行状态以及运行日志发送给运维人员，并根据不同的等级，通过不同的方式进行发送。具体的，在本实施例中，通过邮件的方式，发送低级的报错事件，通过短信发送中级报错事件，通过语音电话发送高级报错事件。

事件记录模块，用于记录报错事件以及运维人员的运维过程，事件记录模块包括时间记录模块、质量记录模块、综合评定模块。

时间记录模块，用于记录运维人员响应报错事件的响应时间和处理报错事件的处理时间，响应时间为，由运维人员接收到报错事件至开始处理报错事件的时间，处理时间为运维人员解决报错事件所花费的时间。

质量记录模块，用于记录运维人员的运维质量，在本实施例中，包括优、良、合格三个等级，由质检人员给出。

综合评定模块，用于根据运维人员的响应时间、处理时间以及运维质量，给出综合评分。响应时间反应了运维人员前往进行处理的速度，处理时间反应了运维人员处理报错事件的效率，运维质量反应了运维人员处理报错事件的技术水平，所以从这三个维度对运维人员进行评分。具体的，运维人员的响应时间和处理时间的评分规则相同，在30分钟内，记为10分，此后每超过5分钟，扣1分。运维质量中优为10分、良为8分、合格为6分。综合评分总分为10分，运维质量和处理时间的分值各占40％，响应时间的分值占20％。

事件绑定模块，预设有分数阈值，当综合评分高于预设分数阈值时，将该运维人员与其处理的报错事件绑定，之后相同的报错事件优先向该运维人员推送。具体的，在本实施例中，分数阈值为9分。

事件记录模块还包括事件状态记录模块，用于记录报错事件的告警等级随时间推移的变化，并记录变化周期。告警生成模块还用于将随时间推移，告警等级降低的报错事件划分为降级事件、将随时间推移，告警等级提高的报错事件，划分为升级事件。

报错告警模块，在发送报错事件时，若升级事件的当前告警等级为高级，则通过搜索附近的运维人员，向距离最近的运维人员发送该报错事件，以保证告警等级为高级的升级事件能够尽快被解决。当升级事件的告警等级为中级或低级时，根据时间记录模块记录的运维人员的响应时间和处理时间，选择附近1km内能够在该报错事件升级至下一等级前，便能够处理好该报错事件，且综合评分最高的运维人员发送该报错信息，以保证不让该报错事件升级，引发更多故障。而当降级事件为低级时，则不向任何运维人员发送该报错事件，对于影响程度不大，且能够自身解决的，便进行过滤，不向运维人员发送，避免运维人员处理无关紧要的报错事件。

本实施例还公开了一种使用了上述运维监控系统的运维监控方法，该方法包括以下内容：

质量记录步骤：记录运维人员的运维质量；

所述事件生成步骤还包括以下步骤：

实施例二

本实施例和实施例一的区别在于，报错告警模块还包括合并发送模块，用于将多个报错事件发送给同一运维人员。

合并发送模块包括事件合并模块，事件合并模块将相同的报错事件，打包合并发送给同一运维人员，具体的，获取当前运维人员附近3km内的相同的报错事件，将相同的报错事件合并发送给该运维人员，并且最多合并5条报错事件，时间记录模块在运维人员处理完前一个报错事件后，重新记录响应时间。

还包括主机合并模块，将同一主机上报错事件打包合并，发送给同一运维人员。具体的，当向运维人员发送报警事件时，获取与该报错事件发生在同一主机上的其他报错事件，将发生在同一主机上的报错事件发送给同一运维人员，并在运维人员处理完前一报错事件后，重新记录处理时间。

并且，在获取时，优先获取同一主机上的报错事件，若没有与报错事件发生在同一主机上的其他报错事件，则获取附近的相同报错事件。

所述报错告警步骤还包括以下步骤：

步骤四：将附近的相同报错事件发送给该运维人员。

实施例三

本实施例和实施例二的区别在于，还包括逻辑关联模块；

逻辑关联模块，用于根据多个报错事件产生的时间以及类型，分析各个报错事件之间是否存在关联关系；

所述合并发送模块还包括逻辑合并模块；

逻辑合并模块，用于将存在关联关系的报错事件，发送给同一运维人员。

具体的，通过构建BP神经网络模型，判断报错事件之间是否存在关联关系，预设好不同报错事件在出现后的各个时间点可能引发的其他报错事件，从而判断各个报错事件之间是否存在关联关系，并将具有关联关系的报错事件发送给同一运维人员处理。

以上的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.一种运维监控系统，其特征在于：包括状态获取模块、日志获取模块、统一日志平台、告警生成模块、日志搜索模块、报错告警模块以及事件记录模块；

2.根据权利要求1所述的一种运维监控系统，其特征在于：所述事件记录模块包括时间记录模块、质量记录模块、综合评定模块以及事件绑定模块；

质量记录模块，用于记录运维人员的运维质量；

3.根据权利要求2所述的一种运维监控系统，其特征在于：所述告警生成模块给出的告警等级包括低、中、高三个告警等级，所述事件记录模块包括事件状态记录模块，所述事件状态记录模块用于记录报错事件的告警等级随时间推移的变化，并记录变化周期；

4.根据权利要求3所述的一种运维监控系统，其特征在于：所述报错告警模块在升级事件的告警等级为高级时，向距离最近的运维人员发送该报错事件；

5.根据权利要求4所述的一种运维监控系统，其特征在于：所述报错告警模块通过邮件的方式向运维人员发送低级报错事件，通过短信的方式发送中级报错事件，通过语音电话的方式发送高级报错事件和升级时间。

6.根据权利要求5所述的一种运维监控系统，其特征在于：所述报错告警模块包括合并发送模块，所述合并发送模块用于将多个报错事件发送给同一运维人员。

7.根据权利要求6所述的一种运维监控系统，其特征在于：所述合并发送模块包括事件合并模块和主机合并模块；

8.一种运维监控方法，使用了权利要求7所述的一种运维监控系统，其特征在于：包括以下步骤：

质量记录步骤：记录运维人员的运维质量；

9.根据权利要求8所述的一种运维监控方法，其特征在于：所述告警生成步骤还包括以下步骤：

10.根据权利要求7所述的一种运维监控方法，其特征在于：所述报错告警步骤还包括以下步骤：

步骤四：将附近的相同报错事件发送给该运维人员。