CN117667482A

CN117667482A - 基于指标阈值的故障检测方法

Info

Publication number: CN117667482A
Application number: CN202311635286.6A
Authority: CN
Inventors: 张一鸣; 徐子康; 李乔; 高聪明; 吴荣鑫; 沈志荣; 舒继武
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2023-12-01
Filing date: 2023-12-01
Publication date: 2024-03-08

Abstract

本公开提供了一种基于指标阈值的故障检测方法，包括以下步骤：对服务器节点进行实时监控，得到指标值；将指标值和规则库中的告警规则进行比对，当指标值触发至少一个告警规则，形成告警信息；根据真告警库中的真告警信息和假告警库的假告警信息，计算告警信息的异常值；根据异常值，判断是否发送告警信息。本公开还提供了一种基于指标阈值的故障检测装置、电子设备、可读存储介质。

Description

基于指标阈值的故障检测方法

技术领域

本公开涉及一种基于指标阈值的故障检测方法、装置、电子设备及存储介质。

背景技术

升级是破坏分布式系统可用性的最有破坏性且不可避免的维护任务之一。升级过程中的任何故障都是灾难性的，因为它会进一步扩大升级造成的服务中断。持续部署的日益采用进一步增加了升级任务的频率和负担。

实践中的一种解决方案是，通过分析一些真实的分布式系统升级故障，揭示升级故障的根本原因、暴露条件和修复策略，并且以此为基础设计静态检查器，在升级之前对代码进行静态检查。还有一种解决方案是，在升级部署之前进行快速的主动审计，检测相关故障的风险并给出改进方案。上述的两种方案有一个共同的局限性在于静态性。具体地说，上述的方案都是在升级部署之前的检测工作，并不能实时发现实际升级期间出现的升级故障。

工业界的分布式系统中为了实时发现出现的各种故障，往往采用的是基于指标的检测方法。但是在实际的升级场景下，由于系统内会出现大量的进程重启现象，节点上的服务也可能受到一定的影响，采用静态阈值告警策略会导致系统短时间内发出大量告警信息，我们将其称为告警风暴。在告警风暴期间，运维人员难以从告警信息中甄选出指示真实故障的信息，经过后续的分析发现，大量的告警信息都是无效的假告警信息，只有少量的告警信息是有效的真告警信息。学术界也有许多基于指标阈值的针对特定场景的研究，比如设置动态阈值，但是在实际升级过程中验证的效果并不好，而且可能会遗漏重要的真告警信息。

发明内容

为了解决上述技术问题中的至少一个，本公开提供了一种基于指标阈值的故障检测方法、装置、电子设备及存储介质。

根据本公开的一个方面，提供了一种基于指标阈值的故障检测方法，包括以下步骤：

对服务器节点进行实时监控，得到指标值；

将所述指标值和规则库中的告警规则进行比对，当所述指标值触发至少一个所述告警规则，形成告警信息；

根据真告警库中的真告警信息和假告警库的假告警信息，计算所述告警信息的异常值；

根据所述异常值，判断是否发送所述告警信息。

根据本公开的至少一个实施方式的故障检测方法，所述告警规则的获取方法，包括：

当所述服务器节点正常运行第一预设时间时，对所述服务器节点进行实时监控，得到第一指标值；

所述指标值包括波动型指标值和增长型指标值；将所述第一预设时间内所述第一指标值中的所述波动型指标值的最大值作为波动型指标阈值，将所述第一预设时间内所述第一指标值中的所述增长型指标值在单位时间内的增长值的最大值作为增长型指标阈值；

设置所述告警规则，包括：所述波动型指标值超过所述波动型指标阈值、所述增长型指标值超过所述增长型指标阈值中的至少一项。

根据本公开的至少一个实施方式的故障检测方法，所述告警规则的获取方法，还包括：

所述指标值至少包括两个性能指标值，获取至少两个所述性能指标值的相关性；

设置所述告警规则，包括：所述波动型指标值超过所述波动型指标阈值、所述增长型指标值超过所述增长型指标阈值、所述指标值违反所述相关性中的至少一项。

根据本公开的至少一个实施方式的故障检测方法，所述假告警信息的获取方法，包括：

当所述服务器节点正常运行第二预设时间时，对所述服务器节点进行实时监控，得到第二指标值；

将所述第二指标值和所述规则库中的告警规则进行比对，当所述第二指标值触发至少一个所述告警规则，形成第一告警信息；

将所述第一告警信息作为所述假告警信息；

所述真告警信息的获取方法，包括：

当所述服务器节点故障时，对所述服务器节点进行实时监控，得到第三指标值；

将所述第三指标值和所述规则库中的告警规则进行比对，当所述第三指标值触发至少一个所述告警规则，形成第二告警信息；

将所述第二告警信息作为所述假告警信息。

根据本公开的至少一个实施方式的故障检测方法，还包括步骤：

分析所述告警信息，若所述告警信息能够指示故障，将所述告警信息作为真告警信息，若所述告警信息无法指示故障，将所述告警信息作为假告警信息。

根据本公开的至少一个实施方式的故障检测方法，当所述指标值触发至少一个所述告警规则，形成告警信息，根据真告警库中的真告警信息和假告警库的假告警信息，计算所述告警信息的异常值，包括：通过逻辑回归算法计算所述异常值。

根据本公开的至少一个实施方式的故障检测方法，所述指标值包括通过服务器端获取的性能指标值和通过应用获取的性能指标值。

根据本公开的一个方面，提供了一种基于指标阈值的故障检测装置，包括：

监控模块，用于对服务器节点进行实时监控，得到指标值；

告警模块，用于将所述指标值和规则库中的告警规则进行比对，当所述指标值触发至少一个所述告警规则，形成告警信息；

计算模块，用于根据真告警库中的真告警信息和假告警库的假告警信息，计算所述告警信息的异常值；

发送模块，用于根据所述异常值，判断是否发送所述告警信息。

根据本公开的一个方面，提供了一种电子设备，包括：

存储器，所述存储器存储执行指令；

处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行上述的基于指标阈值的故障检测方法。

根据本公开的一个方面，提供了一种可读存储介质，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现上述的基于指标阈值的故障检测方法。

附图说明

附图示出了本公开的示例性实施方式，并与其说明一起用于解释本公开的原理，其中包括了这些附图以提供对本公开的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1为本公开的基于指标阈值的故障检测方法的一实施例的步骤流程图；

图2为本公开的一个实施方式的采用处理系统的硬件实现方式的指标阈值的故障检测装置的结构示意框图。

具体实施方式

下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。

除非另有说明，否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此，除非另有说明，否则在不脱离本公开的技术构思的情况下，各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。

在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此，除非说明，否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外，在附图中，为了清楚和/或描述性的目的，可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时，可以以不同于所描述的顺序来执行具体的工艺顺序。例如，可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外，同样的附图标记表示同样的部件。

当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时，该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件，或者可以存在中间部件。然而，当部件被称作“直接在”另一部件“上”、“直接连接到”或“直接结合到”另一部件时，不存在中间部件。为此，术语“连接”可以指物理连接、电气连接等，并且具有或不具有中间部件。

本文使用的术语是为了描述具体实施例的目的，而不意图是限制性的。如这里所使用的，除非上下文另外清楚地指出，否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外，当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时，说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组，但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是，如这里使用的，术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语，如此，它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。

实施例一

下文结合图1对本公开的荷载的识别方法进行详细说明。

本公开想要解决的技术问题是分布式系统升级期间的告警信息筛选。如果不对升级做任何特殊处理，大量的假告警会严重影响运维人员的判断，给系统的正常运行带来巨大挑战。此外，学术界提出的多种基于动态指标阈值的告警策略在实践中的效果不佳，不能有效筛选出真告警。

本公开提出的一种基于指标阈值的升级故障检测方法，其技术构思是既然难以通过指标阈值的设置来让系统暴露更多、更准确的告警信息，那么就尽量减少上报的告警信息中的假告警数量，同时保留可能的真告警。由于升级过程可以看作是节点上的进程重启，任务重分配等，本公开认为假告警是存在类似模式的。本公开对这种模式进行学习，之后对告警信息进行筛选，以实现减少上报的假告警。

参考图1，所述故障检测方法，包括以下步骤：

S100、对服务器节点进行实时监控，得到指标值；

S200、将所述指标值和规则库中的告警规则进行比对，当所述指标值触发至少一个所述告警规则，形成告警信息；

S300、根据真告警库中的真告警信息和假告警库的假告警信息，计算所述告警信息的异常值；

S400、根据所述异常值，判断是否发送所述告警信息。

首先，通过专门的软件从分布式系统的各个服务器节点实时获取指标信息。具体包括：

1)使用服务器端的性能监测工具，例如Linux服务器的perf等工具。使用这些工具实时统计和显示各种系统资源使用情况，包括CPU、内存、磁盘、网络等。

2)使用应用中的性能检测工具自主监控一些自身指标，例如Hadoop的JMX等工具。

这样的指标获取方法能够全面了解节点的运行状况。

将获取的指标信息实时记录到时序数据库中，比如Prometheus等。

获取的指标值随后传送至规则库中进行比对。规则库构成了告警触发的内容。规则库为告警提供了判断的基础。对于从监控进程中抓取的数据进行分析，逐一和规则库进行比对，一旦有符合的就形成告警信息，并记录这些异常情况。否则就静默。

在系统初始阶段，设定阈值是关键。阈值可以是系统在一段正常运行期间得出的结果，包括该期间内出现的，每个波动性指标的最大值，和每个增长性指标在单位时间内的增长值的最大值。这为告警提供了判断的基础。

规则库初始化，具体包括：

在服务器节点上正常执行应用一段时间后，在时序数据库中截取正常运行的这部分数据，进行分析。

对指标进行分类，波动型指标以其出现过的最大值为阈值(比如节点的内存占用率)，增长型指标以其出现过的在单位时间内的增长值的最大值为阈值(比如单位时间内Hadoop节点写入的最大字节)。

规则库还包括一些人为判断的指标之间的相关性。

将每个指标值超过对应的阈值作为一条告警规则写入规则库中，也就是说若某指标值超过其阈值，或者多个指标值之间的相关性出现异常，就会产生一条告警信息。

在系统初始阶段，设定告警库。在运行过程中注入预期中的行为和已知的故障，根据规则库中的规则，将对应产生的告警信息分别写入到告警库中。

假告警库初始化，具体包括：

在规则库初始化后，服务器节点上继续正常执行应用另一段时间，在正常运行过程中，可以进一步的进行一些系统正常操作，比如升级、降级，或者一些预期之中的活动。

运行监控进程，将获取的指标值实时与规则库进行比对，将产生的告警信息作为假告警信息，写入假告警库中。

真告警库初始化，具体包括：

在运行过程中触发已经被证实的故障现象，比如节点的异常下线、网络拥塞、进程异常杀死等，或者其它一些预期之外的活动。

运行监控进程，将获取的指标值实时与规则库进行比对，将产生的告警信息作为真告警信息，写入真告警库中。

建立一套基于机器学习的告警打分机制，具体包括：

基于逻辑回归模型分别学习已经验证的真告警信息和假告警信息的特征，然后使用该模型对产生的告警信息计算异常值。异常值代表告警信息指示真实故障的可能性。

静默异常值较低(未超过预设的阈值)的告警，以减少假告警的上报，将其余更可能指示故障的告警信息，即异常值超过预设的阈值的告警通知给外部，通常是发送至系统的运维人员。这使得告警能够及时得到处理，防止潜在故障进一步扩大。

运维人员实时接收异常值高的告警信息。运维人员通过处理这些异常，实时更新假告警库和真告警库，使得机器学习模型能够更好地识别类似的故障，从而实现了系统的自调节能力。

告警库的更新，具体包括：

运维人员收到告警后，人工判断告警的真假。如果判定该告警是真告警，则将该条告警信息加入到真告警库中。如果判定该告警是假告警，则加入到假告警库中。如果运维人员无法判断该告警的真假，或者不确定该告警的根因会导致类似的指标特征表示，则不做任何改动。

本公开对模型的学习数据集进行动态修改，实现了在升级过程中对系统的实时监测，而且具有一定的自适应性。

与现有技术相比，本公开具有如下有益效果：

全面性：通过从多个维度获取指标，能够全面了解节点的运行状态，提高故障检测的准确性。

自适应性：通过分析指标值之间的关系，能够自动适应不同系统和场景的变化，减少误报率。

实时性：应用在系统实际升级场景中，过滤后的告警信息也由运维人员实时获取，处理并反馈。实时的监测和分析使得故障能够及时被发现和处理，降低系统风险。

自我优化：具有动态性，学习数据集由运维人员的反馈动态调整的。模型不断根据告警库中数据进行自我优化，提高故障检测的准确性和可靠性。

综上所述，本公开一种基于指标阈值的故障检测方法，能够有效监测和分析分布式系统中的潜在故障，克服了传统规则固定、误报率高、难以捕获复杂故障等问题，和现有的动态阈值告警方法相比，本公开的最大优点在于过滤掉大量的假告警，从而解决了运维人员在遇到告警风暴时无法实时处理告警信息的问题，本公开具备动态适应性、多维度分析、实时性和自我优化等优势，有效提升了分布式系统的故障检测和处理效率，提高系统的稳定性和可靠性。

实施例二

所述荷载的故障检测装置1000，包括：

监控模块1002，用于对服务器节点进行实时监控，得到指标值；

告警模块1004，用于将所述指标值和规则库中的告警规则进行比对，当所述指标值触发至少一个所述告警规则，形成告警信息；

计算模块1006，用于根据真告警库中的真告警信息和假告警库的假告警信息，计算所述告警信息的异常值；

发送模块1008，用于根据所述异常值，判断是否发送所述告警信息。

该装置可以包括执行上述流程图中各个或几个步骤的相应模块。因此，可以由相应模块执行上述流程图中的每个步骤或几个步骤，并且该装置可以包括这些模块中的一个或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。

该硬件结构可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器，这取决于硬件的特定应用和总体设计约束。总线1100将包括一个或多个处理器1200、存储器1300和/或硬件模块的各种电路连接到一起。总线1100还可以将诸如外围设备、电压调节器、功率管理电路、外部天线等的各种其他电路1400连接。

总线1100可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，Peripheral Component)总线或扩展工业标准体系结构(EISA，Extended Industry Standard Component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，该图中仅用一条连接线表示，但并不表示仅有一根总线或一种类型的总线。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如，本公开中的方法实施方式可以被实现为软件程序，其被有形地包含于机器可读介质，例如存储器。在一些实施方式中，软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时，可以执行上文描述的方法中的一个或多个步骤。备选地，在其他实施方式中，处理器可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述方法之一。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，可以具体实现在任何可读存储介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

就本说明书而言，“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在存储器中。

应当理解，本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，程序可以存储于一种可读存储介质中，该程序在执行时，包括方法实施方式的步骤之一或其组合。

此外，在本公开各个实施方式中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个可读存储介质中。存储介质可以是只读存储器，磁盘或光盘等。

本公开还提供了一种电子设备，包括：存储器，存储器存储执行指令；以及处理器或其他硬件模块，处理器或其他硬件模块执行存储器存储的执行指令，使得处理器或其他硬件模块执行上述的识别方法。

本公开还提供了一种可读存储介质，可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现上述的识别方法。

本公开瞄准系统升级故障检测这一痛点问题，主流的分布式存储系统作为分布式应用的底层基础，对升级的可靠性有着极高的要求。由此，本公开可以应用到主流的分布式存储系统的升级阶段的故障检测中，保证运维人员时刻接触到数量可处理的告警信息，从而保障升级安全。

在本说明书的描述中，参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式/方式或示例中。在本说明书中，对上述术语的示意性表述不必须的是相同的实施方式/方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本公开，而并非是对本公开的范围进行限定。对于所属领域的技术人员而言，在上述公开的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本公开的范围内。

Claims

1.一种基于指标阈值的故障检测方法，其特征在于，包括以下步骤：

对服务器节点进行实时监控，得到指标值；

根据所述异常值，判断是否发送所述告警信息。

2.如权利要求1所述的故障检测方法，其特征在于，所述告警规则的获取方法，包括：

3.如权利要求2所述的故障检测方法，其特征在于，所述告警规则的获取方法，还包括：

4.如权利要求1所述的故障检测方法，其特征在于，所述假告警信息的获取方法，包括：

将所述第一告警信息作为所述假告警信息；

所述真告警信息的获取方法，包括：

将所述第二告警信息作为所述真告警信息。

5.如权利要求1所述的故障检测方法，其特征在于，还包括步骤：

6.如权利要求1所述的故障检测方法，其特征在于，当所述指标值触发至少一个所述告警规则，形成告警信息，根据真告警库中的真告警信息和假告警库的假告警信息，计算所述告警信息的异常值，包括：通过逻辑回归算法计算所述异常值。

7.如权利要求1所述的故障检测方法，其特征在于，所述指标值包括通过服务器端获取的性能指标值和通过应用获取的性能指标值。

8.一种基于指标阈值的故障检测装置，其特征在于，包括：

监控模块，用于对服务器节点进行实时监控，得到指标值；

9.一种电子设备，其特征在于，包括：

存储器，所述存储器存储执行指令；以及

处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行权利要求1至7中任一项所述的基于指标阈值的故障检测方法。

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现权利要求1至7中任一项所述的基于指标阈值的故障检测方法。