CN115022196A

CN115022196A - 一种预测软件运行问题并告警的方法和系统

Info

Publication number: CN115022196A
Application number: CN202210669096.5A
Authority: CN
Inventors: 李成; 郑皓元; 于海洋
Original assignee: QIMING INFORMATION TECHNOLOGY CO LTD
Current assignee: QIMING INFORMATION TECHNOLOGY CO LTD
Priority date: 2022-06-14
Filing date: 2022-06-14
Publication date: 2022-09-06

Abstract

本发明公开了一种预测软件运行问题并告警的方法及系统，该方法包括如下步骤：采集目标系统运行数据：通过数据采集模块分别采集目标系统的资源使用数据、业务指标数据和系统负载数据；配置数据分析规则：通过数据分析模块配置数据分析规则，对采集到的目标系统运行数据进行分析，以预测目标系统运行数据变化趋势；配置数据预警规则：通过数据预警模块配置数据预警规则，并根据数据预警规则对目标系统运行数据进行预警。本发明能够通过预置的数据分析规则和数据预警规则方式对目标系统的行为进行智能分析，实现对目标系统运行趋势的预测并告警。

Description

一种预测软件运行问题并告警的方法和系统

技术领域

本发明涉及软件运维技术领域，尤其涉及一种预测软件运行问题并告警的方法及系统。

背景技术

一个互联网产品的生成一般经历的过程是：项目立项、需求分析、研发部门开发、测试部门测试、运维部门部署发布以及长期的运行维护。运维，本质上是对网络、服务器、服务的生命周期各个阶段的运营与维护，在成本、稳定性、效率上达成一致可接受的状态。

运维的职责覆盖了产品从设计到发布、运行维护、变更升级及至下线的生命周期，各个阶段的职责包括：产品发布前，这个阶段运维工程师的职责是参与设计并把有关运维准入，主要包括：产品的业务熟悉；产品架构设计的合理性评估，包括是否存在单点，是否可容错，是否有强耦合等，同时需要提供产品设计的合理性建议以使产品能够满足上线发布并稳定运行的基本要求；资源评估，包括所需的服务器资源、网络资源以及资源的分布等，同时把相关产品对资源预算申请的合理性，控制服务成本；资源就位，将申请的服务器及基础环境/域名准备就位。产品发布，这个阶段运维工程师负责发布的具体工作，将具体的软件和系统/硬件资源整合形成产品并对外提供服务。对于已在线服务的更新也属于发布范畴，这个时候的产品发布一般要保障在线发布，在不中断对外服务的情况下完成产品的升级。对于大型复杂的变更也存在中止服务部署完成后再重新提供服务的情况，但这种情况需要运维工程师通过尽可能的技术手段来避免。产品运行维护，这个阶段的主要工作包括：监控：对服务运行的状态进行实时的监控，随时发现服务的运行异常和资源消耗情况；输出重要的日常服务运行报表以评估服务/业务整体运行状况，发现服务隐患；故障处理：对服务出现的任何异常进行及时处理，尽可能避免问题的扩大化甚至中止服务，这之前运维工程师需要针对各类服务异常，如机房/网络故障、程序bug等问题制定处理的预案，问题出现时可以自动或手动执行预案达到止损的目的，除了日常小故障外，运维工程师还需要考虑产品不同程度受损情况下的灾难恢复，包括诸如地震等不可抗力导致大规模机房故障、在线产品被删除等对产品造成致命伤害的情况。产品下线，发展良好的互联网产品将始终在线对外提供服务，但互联网产品快速迭代，也存在相当多孵化的产品最后被淘汰的情况，这些产品都需要做下线处理，这个过程运维工程师主要做好资源回收的工作，将机器/网络等资源回收后纳入资源池中供其它服务使用。

现有技术中，分布式微服务架构平台的运维工作的顺利通常需要借助于运维人员的技术积累、经验，运维人员根据经验或数据的变化规律来判断系统资源是否会在一定时间之后不满足系统要求，运维人员根据系统资源使用情况，以及在线人数等指标的变化规律推断在未来的一段时间之内系统负载是否会达到上限。然而，随着软件技术的发展，以及各行业的数字化程度的不断提高，依告人工来推断，预测的系统的运行趋势的难度也越来越大，运维成本也在不断提高。目前迫切需要一种方法去解决系统的运维及运营预警问题，然而在现有技术中还没有一种行之有效的方法能够很好的对系统的运行趋势做出分析。

发明内容

本发明的第一个目的在于提供一种预测软件运行问题并告警的方法，以解决如何对目标系统进行监控和分析的技术问题。

本发明的第一个目的是采用以下技术方案实现的：一种预测软件运行问题并告警的方法，包括如下步骤：

采集目标系统运行数据：通过数据采集模块分别采集目标系统的资源使用数据、业务指标数据和系统负载数据；

配置数据分析规则：通过数据分析模块配置数据分析规则，对采集到的目标系统运行数据进行分析，以预测目标系统运行数据变化趋势；

配置数据预警规则：通过数据预警模块配置数据预警规则，并根据数据预警规则对目标系统运行数据进行预警。

进一步的，所述采集目标系统运行数据包括如下步骤：

S11：通过在目标系统上安装数据采集器、Prometheus监控工具和K8S编排管理工具的方式采集目标系统的资源使用数据和业务指标数据；

S12：通过读取目标系统用户登录状态的方式采集目标系统的系统负载数据。

进一步的，所述资源使用数据包括内存数据，所述业务指标数据包括CPU数据，步骤S11包括如下子步骤：

S111：通过在目标系统上安装数据采集器，定时获取目标系统top指令获取内存数据和CPU数据；

S112：通过采集Prometheus监控工具数据获取目标系统内存数据和CPU数据；

S113：通过采集K8S编排管理工具数据获取目标系统内存数据和CPU数据。

进一步的，所述系统负载数据包括在线用户数量，步骤S12包括如下子步骤：

S121：在登录目标系统时，通过数据采集程序存储当前用户的登录状态；

S122：在退出目标系统时，通过数据采集程序清除当前用户的登录状态；

S123：通过数据采集程序读取记录的用户登录状态，获取目标系统在线用户数量。

进一步的，所述配置数据分析规则包括如下步骤：

S21：通过数据分析模块设置采样周期，按照采样周期获取目标系统的资源使用数据、业务指标数据和系统负载数据，并分别计算采样周期内目标系统的资源使用数据、业务指标数据和系统负载数据的最大值、最小值和平均值；

S22：通过数据分析模块分别设置目标系统资源使用数据、业务指标数据和系统负载数据的误差范围。

进一步的，所述资源使用数据和业务指标数据的误差范围为±3%至±5%，所述系统负载数据的误差范围为±80人至±100人。

进一步的，所述配置数据预警规则包括如下步骤：

S31：通过数据预警模块设置预警阈值；

S32：通过数据预警模块统计并监测目标系统的资源使用数据、业务指标数据和系统负载数据，若统计到目标系统的资源使用数据、业务指标数据和系统负载数据超出预警阈值时，则触发预警。

本发明的第二个目的在于提供一种预测软件运行问题并告警的，以解决如何对目标系统进行监控和分析的技术问题。

本发明的第二个目的是通过以下技术手段来实现的：一种预测软件运行问题并告警的系统，包括数据采集模块、数据分析模块和数据预警模块，通过数据采集模块分别采集目标系统的资源使用数据、业务指标数据和系统负载数据；通过数据分析模块配置数据分析规则，对采集到的目标系统运行数据进行分析，以预测目标系统运行数据变化趋势；通过数据预警模块配置数据预警规则，并根据数据预警规则对目标系统运行数据进行预警。

进一步的，所述数据采集模块包括数据采集器、Prometheus监控工具、K8S编排管理工具和数据采集程序，通过数据采集器、Prometheus监控工具和K8S编排管理工具分别采集目标系统的资源使用数据和业务指标数据，通过数据采集程序采集目标系统的系统负载数据。

本发明的有益效果在于：本发明能够对分布式微服务架构平台的系统资源、运行状态、运营数据等内容进行有效的监控和分析，能够通过预置的数据分析规则和数据预警规则方式对目标系统的行为进行智能分析，实现对目标系统运行趋势的预测并告警。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明流程图；

图2为采集目标系统运行数据的流程框图；

图3为本发明系统框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

下面结合附图，对本发明的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

实施例1：

参阅图1-2，一种预测软件运行问题并告警的方法，包括如下步骤：

在本实施例当中，所述采集目标系统运行数据包括如下步骤：

在本实施例当中，所述资源使用数据包括内存数据，所述业务指标数据包括CPU数据，步骤S11包括如下子步骤：

在本实施例当中，所述系统负载数据包括在线用户数量，步骤S12包括如下子步骤：

进一步的，Prometheus监控工具是一个最初在SoundCloud上构建的开源系统监控和警报工具包，Prometheus 的主要优势有：由指标名称和和键/值对标签标识的时间序列数据组成的多维数据模型；强大的查询语言 PromQL；不依赖分布式存储；单个服务节点具有自治能力；时间序列数据是服务端通过 HTTP 协议主动拉取获得的；也可以通过中间网关来推送时间序列数据；可以通过静态配置文件或服务发现来获取监控目标；支持多种类型的图表和仪表盘。Prometheus 适用于记录文本格式的时间序列，它既适用于以机器为中心的监控，也适用于高度动态的面向服务架构的监控，在微服务的世界中，它对多维数据收集和查询的支持有特殊优势，Prometheus 是专为提高系统可靠性而设计的，它可以在断电期间快速诊断问题，每个 Prometheus Server 都是相互独立的，不依赖于网络存储或其他远程服务，当基础架构出现故障时，你可以通过 Prometheus 快速定位故障点，而且不会消耗大量的基础架构资源。

进一步的，K8S（全称kubernetes，也被称为K8s或Kube，是谷歌推出的业界最受欢迎的容器编排器）编排管理工具，K8s使部署和管理微服务架构应用程序变得很简单，它通过在集群之上形成一个抽象层来实现这一点，允许开发团队平滑地部署应用程序。K8S编排管理工具主要处理以下任务：控制和管理应用程序对资源的使用；自动负载均衡应用程序的多个实例之间请求；监控资源使用和资源限制，为了可以自动阻止应用消耗过多的资源并且可以再次恢复它们；如果主机资源耗尽或主机死机，将应用程序实例从一台主机迁移到另一台主机是一个可行的选项；当有新的主机加入集群时，新增加的额外资源可以被自动使用。

在本实施例当中，所述配置数据分析规则包括如下步骤：

在本实施例当中，所述资源使用数据和业务指标数据的误差范围为±3%至±5%，所述系统负载数据的误差范围为±80人至±100人。

进一步的，所述采样周期优选为7天，每天按时间段分为24组，数据采样后确定7中每天每小时的CPU数据、内存数据、在线用户数量的最大值，最小值，平均值。其中，所述CPU数据和内存数据的误差范围优选为±5%，所述在线用户数量误差范围优选为±100人。当采样周期内监测到CPU数据、内存数据和在线用户数量超过误差范围，则标记当天。

在本实施例当中，所述配置数据预警规则包括如下步骤：

S31：通过数据预警模块设置预警阈值；

进一步的，所述预警阈值优选为4天，当采样周期7天内统计到有4天存在CPU数据、内存数据或在线用户数量超过误差范围时，进行预警。

参阅图3，一种预测软件运行问题并告警的系统，包括数据采集模块、数据分析模块和数据预警模块，通过数据采集模块分别采集目标系统的资源使用数据、业务指标数据和系统负载数据；通过数据分析模块配置数据分析规则，对采集到的目标系统运行数据进行分析，以预测目标系统运行数据变化趋势；通过数据预警模块配置数据预警规则，并根据数据预警规则对目标系统运行数据进行预警。

本发明能够对分布式微服务架构平台的系统资源、运行状态、运营数据等内容进行有效的监控和分析，能够通过预置的数据分析规则和数据预警规则方式对目标系统的行为进行智能分析，实现对目标系统运行趋势的预测并告警。

需要说明的是，对于前述的实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例属于优选实施例，所涉及的动作并不一定是本申请所必须的。

上述实施例中，描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种预测软件运行问题并告警的方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种预测软件运行问题并告警的方法，其特征在于，所述采集目标系统运行数据包括如下步骤：

3.如权利要求2所述的一种预测软件运行问题并告警的方法，其特征在于，所述资源使用数据包括内存数据，所述业务指标数据包括CPU数据，步骤S11包括如下子步骤：

4.如权利要求2所述的一种预测软件运行问题并告警的方法，其特征在于，所述系统负载数据包括在线用户数量，步骤S12包括如下子步骤：

5.如权利要求1所述的一种预测软件运行问题并告警的方法，其特征在于，所述配置数据分析规则包括如下步骤：

6.如权利要求5所述的一种预测软件运行问题并告警的方法，其特征在于，所述资源使用数据和业务指标数据的误差范围为±3%至±5%，所述系统负载数据的误差范围为±80人至±100人。

7.如权利要求1所述的一种预测软件运行问题并告警的方法，其特征在于，所述配置数据预警规则包括如下步骤：

S31：通过数据预警模块设置预警阈值；

8.一种预测软件运行问题并告警的系统，其特征在于，包括数据采集模块、数据分析模块和数据预警模块，通过数据采集模块分别采集目标系统的资源使用数据、业务指标数据和系统负载数据；通过数据分析模块配置数据分析规则，对采集到的目标系统运行数据进行分析，以预测目标系统运行数据变化趋势；通过数据预警模块配置数据预警规则，并根据数据预警规则对目标系统运行数据进行预警。