CN116627693A

CN116627693A - 一种微服务系统中的故障检测方法及装置

Info

Publication number: CN116627693A
Application number: CN202310574100.4A
Authority: CN
Inventors: 黄逸东; 尹建伟; 潘晓华; 李莹
Original assignee: Binjiang Research Institute Of Zhejiang University; Hangzhou Ronghe Intelligent Manufacturing Technology Co ltd; Zhejiang University ZJU
Current assignee: Binjiang Research Institute Of Zhejiang University; Hangzhou Ronghe Intelligent Manufacturing Technology Co ltd; Zhejiang University ZJU
Priority date: 2023-03-13
Filing date: 2023-05-18
Publication date: 2023-08-22

Abstract

本发明提供了一种微服务系统中的故障检测方法，属于计算机异常检测技术领域。它解决了异常检查方法大多数为开发人员进行规则过滤并设置阈值等问题。本微服务系统中的故障检测方法包括以下步骤：S3.1：获取目标系统的分布式跟踪数据，并通过所述分布式跟踪数据进行构建，构建出服务调用链；S3.2：获取目标系统的监控数据，使用PCA方法进行降维获得监控数据向量；S3.3：将所述的监控数据向量作为所述服务调用链的权重嵌入服务调用链中；S3.4：将聚合后的服务调用链作为异常检测模型的输入，得到所述异常检测模型输出的对所述目标系统的异常检测结果。本发明具有能降低了对分析人员的专业性要求，能够在提升系统的异常检测效率，降低实现难度和成本等优点。

Description

一种微服务系统中的故障检测方法及装置

技术领域

本发明属于计算机异常检测技术领域，特别涉及一种微服务系统中的故障检测方法及装置。

背景技术

随着微服务技术的发展，越来越多的应用程序开始使用微服务架构来提供服务；在这样过程中，需要对应用程序的各种指标进行采集，以确定服务是否正常；在保证服务的稳定性方面，管理人员可以通过采集的数据进行检测并及时的发出报警，从而避免出现更大的故障。

目前，现有的异常检查方法大多数为开发人员进行规则过滤并设置阈值，从而设置相应的报警，故需要合理的设置阈值，如果阈值设置的不合理，就会出现漏报和误报，从而造成极大的损失。

发明内容

本发明的目的是针对现有技术中存在的上述问题，提供了一种微服务系统中的故障检测方法。

本发明的第一个目的可通过下列技术方案实现：一种异常检测模型的建立方法，其特征在于，包括以下步骤：

S1.1：获得历史分布式跟踪数据和历史监控数据，以及历史分布式跟踪数据和监控数据对应事件内的问题反馈数据；

S1.2：对历史分布式跟踪数据进行构建，构建出历史服务调用链；

S1.3：对历史监控数据使用PCA方法进行降维获得历史监控数据向量；

S1.4：将历史监控数据向量作为历史服务调用链的权重嵌入历史服务调用链中；并且根据时间对问题反馈数据进行聚合，得到聚合后的问题反馈数据；

S1.5：将相同时间段内的历史服务调用链和问题反馈数据作为一组训练数据，通过训练数据训练获得异常检测模型。

在上述的异常检测模型的建立方法中，还包括S2:对所述的异常检测模型进行优化；

S2.1：将训练数据放入GCN网络中，进行特征提取，获得特征提取矩阵；

S2.2：将特征提取矩阵放入VAE网络中，提取故障信息，获得系统出现故障的概率；

S2.3：将模型计算的概率与问题反馈数据得出的数据进行对比，调整与优化模型的参数。

本发明的第二个目的可通过下列技术方案实现：一种微服务系统中的故障检测方法，其特征在于，基于上述一种异常检测模型的建立方法，还包括以下步骤：

S3.1：获取目标系统的分布式跟踪数据，并通过所述分布式跟踪数据进行构建，构建出服务调用链；

S3.2：获取目标系统的监控数据，使用PCA方法进行降维获得监控数据向量；

S3.3：将所述的监控数据向量作为所述服务调用链的权重嵌入服务调用链中，得到聚合后的服务调用链；

S3.4：将聚合后的服务调用链作为异常检测模型的输入，得到所述异常检测模型输出的对所述目标系统的异常检测结果。

本发明的第三个目的可通过下列技术方案实现：一种异常检测装置，其特征在于，包括分布式跟踪数据处理模块，用于对目标系统的分布式跟踪数据进行处理得到服务调用链；监控数据处理模块，用于对目标系统的监控数据进行降维并嵌入进服务调用链中；数据聚合模块，用于对目标系统的服务调用链和监控数据向量进行组合，构建新的服务调用链；异常检测模块，用于将处理后的服务调用链作为异常检测模型的输入，得到所述异常检测模型输出的对所述目标系统的异常检测结果；所述异常检测模型为利用所述目标系统的历史数据和所述历史数据相应时间内的问题反馈数据训练获得的。

本发明的第四个目的可通过下列技术方案实现：一种微服务系统中的故障检测装置，包括通信组件、电源组件、音频组件、显示器、一个或多个处理器、存储器以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行上述的一种微服务系统中的故障检测方法。

在上述的微服务系统中的故障检测装置中，所述通信组件还包括近场通信模块。

在上述的微服务系统中的故障检测装置中，所述音频组件还包括近场麦克风和扬声器。

在上述的微服务系统中的故障检测装置中，所述显示器还包括近场液晶显示器和触摸面板。

与现有技术相比，本发明具有能降低了对分析人员的专业性要求，也不需要复杂的维护，因此能够在提升系统的异常检测效率的同时，降低实现难度和实现成本的优点。

附图说明

图1是本发明的一种异常检测模型的建立方法的流程示意图。

图2是本发明的一种异常检测模型的建立方法的优化流程示意图。

图3是本发明的一种微服务系统中的故障检测方法的流程示意图。

图4是本发明的一种异常检测装置的结构示意图。

图5是本发明的微服务系统中的故障检测装置的结构示意图。

具体实施方式

以下是本发明的具体实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

如图1-图5所示，一种异常检测模型的建立方法，包括以下步骤：

S1.1：获得历史分布式跟踪数据和历史监控数据，以及历史分布式跟踪数据和监控数据对应事件内的问题反馈数据。

作为用于训练模型的数据基础，此处为了区别于方法实施例S3.1、S3.2描述的分布式跟踪数据和监控数据，将用于训练模型所使用的分布式跟踪数据和监控数据称为历史分布式跟踪数据和历史监控数据；历史分布式跟踪数据和历史监控数据的生成时间早于S3.1、S3.2描述的分布式跟踪数据和监控数据的生成时间；历史分布式跟踪数据和历史监控数据与分布式跟踪数据和监控数据的类型及形式基本相同。

此外，还需要获得问题反馈数据；在一种示例场景下，用户通过使用目标系统，在运行目标系统的设备上执行一些预设操作，从而产生了线上的问题反馈数据；对于不同的目标系统，相应的，问题反馈数据的类型及内容可能存在差别；故此处对于问题反馈数据的类型及内容不做限制；为了便于理解，下面提供几则示例。

示例一：用户A通过使用设备上运行的目标系统，通过预先设置目标系统设备导致目标系统的CPU占用率过高，导致使用过程中存在操作响应延迟的问题，并记录发现问题的时间和问题的原因。

示例二：用户B通过使用设备上运行的目标系统，通过预先设置目标系统设备导致目标系统的内存占用过高，导致使用过程中存在操作响应延迟的问题，并记录发现问题的时间和问题的原因。

S1.2：对历史分布式跟踪数据进行构建，构建出历史服务调用链。

在本实施例中，为了保证训练出的异常检测模型的使用效果，要求训练数据中输入数据和使用过程中的输入数据具有相同或者相似的形式；结合实施例S3.1的描述，将分布式跟踪数据通过图生成算法构建出一个有向图；故在训练阶段，S1.2也要首先对历史分布式跟踪数据进行处理，从而得到服务调用链的图表示。

S1.3：对历史监控数据使用PCA方法进行降维获得历史监控数据向量。

在本实施例中，为了保证训练出的异常检测模型的使用效果，要求训练数据中输入数据和使用过程中的输入数据具有相同或者相似的形式；结合上述S3.2的描述，需要将历史监控数据通过PCA方法进行处理，从而获得降维后的历史监控数据向量。

S1.4：将历史监控数据向量作为历史服务调用链的权重嵌入历史服务调用链中；并且根据时间对问题反馈数据进行聚合，得到聚合后的问题反馈数据。

在本实施例中，为了形成训练数据，分别对前述步骤获得的历史服务调用链和历史监控数据向量和问题反馈数据进行聚合；具体聚合方式也是依照时间进行；通过服务调用链确定当前时间，然后根据当前时间去历史监控数据向量和问题反馈数据中需要当前时间的数据；历史监控数据向量依照S3.3的描述，根据将历史监控数据作为图的权重进行嵌入，从而构建新的历史服务调用链；然后将问题反馈数据与新的历史服务调用链进行聚合；从而保证历史服务调用链与问题反馈数据的对应关系。

下面提供一种获得聚合后的问题反馈数据的可选实现方式。

首先，根据时间段分批获得问题反馈数据的数量和问题类型，其后将问题反馈数据的数量和问题类型与不同日期的同一时间段的参照值进行对比；如果该时间段的问题反馈数据超过参照值，则表示该时间窗口内问题反馈的数量过多，可能存在异常；反之，则认为系统在该时间窗口内无异常；将上述判定结果作为时间窗口对问题反馈数据的聚合结果。

为了保证模型输入输出在时间上的匹配度，在时间维度上实现对系统异常的准确检测，本申请实施例中在形成训练数据时，将相同时间窗口的聚合后的历史日志向量与聚合后的问题反馈数据作为一组训练数据；如此，基于不同的时间窗口，可以获得多组训练数据。

进一步细说，还包括S2:对所述的异常检测模型进行优化；

S2.1：将训练数据放入GCN网络中，进行特征提取，获得特征提取矩阵。

为了保证能够从训练数据中提取出有用的信息，需要对训练数据进行计算，从而获得特征提取矩阵，以减少其他数据的干扰。

在本实施例中，可以通过图卷积神经网络(GraphConvolutionalNetwork，GCN)方法对训练数据进行处理，以寻找数据中的特征，以获得特征提取矩阵；实际应用中将训练数据进行特征提取的方式不局限于GCN方法，本方案中对S2.1的具体实现方式不进行限定。

S2.2：将特征提取矩阵放入VAE网络中，提取故障信息，获得系统出现故障的概率。

为了检测是否出现故障，需要将S2.1计算出的特征提取矩阵进行处理，以便判断目标系统是否出现故障。

在本实施例中，可以通过变分自动编码器(VariationalautoEncoder，VAE)方法对特征矩阵进行处理，学习潜在的属性并构造新的元素，使用softmax层计算得到一个n维向量，每个维度的值表示出现在当前位置的概率，所有概率之和为1，从而获得系统出现故障的概率。

在本实施例中，在通过所述训练数据进行模型训练时，利用预设测评指标对于模型进行评估，当评估结果满足预设条件时，得到所述异常检测模型；在一种示例中，要训练的异常检测模型其本质是一种分类模型，可以使用分类模型的相关测评指标来对模型训练情况进行评估；例如，使用的测评指标可以为准确率、召回率和F1分数；准确率表示真实异常在检测到的异常中所占的比例，召回率表示在所有被模型标记为异常的真实异常中所占的比例，F1分数是一种结合精确率和召回率的性能指标；在模型训练过程中，根据指标持续优化，满足预设条件时保存最终生成的模型文件。

当模型训练完成时，即可部署到对目标系统的测试环境中，执行微服务系统中的故障检测方法的流程；若异常检测结果为无异常，则异常检测流程结束；而若异常检测结果为异常，则可以根据实际需要，继续进行故障排查工作。

本发明的第二个目的可通过下列技术方案实现：一种微服务系统中的故障检测方法，基于上述一种异常检测模型的建立方法，包括以下步骤：

S3.1：获取目标系统的分布式跟踪数据，并通过所述分布式跟踪数据进行构建，构建出服务调用链。

目标系统在本实施例中是指任意一种待检测的软件系统，对于目标系统的功能不做限定，目标系统的分布式跟踪数据包括但不限于：跟踪ID(TraceID)、跨度ID(SpanId)、父亲跨度ID、服务名称、响应时间等；跟踪Id为分布式跟踪在全部响应流程的唯一ID，跨度ID为分布式跟踪在某个服务进行的ID，父亲跨度ID为分布式跟踪在上一个服务进行的ID，服务名称为目标系统运行服务的名称，响应时间为本次请求中在此服务的响应时间。

在本实施例中，可以通过跨度ID和父亲跨度ID进行遍历进行处理来生成服务调用链图，将文本转换为向量的方式不局限于跨度ID和父亲跨度ID进行遍历方法，本实施例中对S3.1的具体实现方式不进行限定。

S3.2：获取目标系统的监控数据，使用PCA方法进行降维获得监控数据向量。

目标系统的监控数据包括但不限于：CPU占用率、内存使用率等；CPU占用率表示目标终端设备的CPU运行情况，内存使用率表示目标终端设备的内存运行情况；由于监控数据的内容复杂，每个数据对当前服务的性能影响不同，这里需要对数据进行处理，以提取重要的数据进行分析，减少其他数据造成的干扰。

在本实施例中，可以通过主成分分析(PrincipalComponentAnalysis，PCA)方法对监控数据进行处理，以寻找数据中的主要成分，以获得一个更低维度的数据；将监控数据降维的方式不局限于PCA方法，本实施例中对S3.2的具体实现方式不进行限定。

S3.3：将所述的监控数据向量作为所述服务调用链的权重嵌入服务调用链中，得到聚合后的服务调用链。

为了实现时间维度上相对准确的异常诊断，S3.3需要在时间维度上对S3.1获得的服务调用链和S3.2获得的数据矩阵进行聚合；实现时具体可以包括：按照S3.1的服务调用链每个节点服务响应的时间进行计算，寻找该服务响应时间内的S3.2的计算出来的数据，将其作为该节点的一个权重值。

通过执行S3.3，将S3.1获得的服务调用链和S3.2获得的数据矩阵进行聚合，从而便于后续服务调用链对目标系统进行时间维度上相对准确的异常检测。

在S3.4执行之前，已预先训练好异常检测模型；该模型的作用是根据输入的服务调用链图进行异常检测，并输出基于聚合后的服务调用链的异常检测结果；异常检测模型的本质是一个分类模型，用于基于输入内容做出分类；在本申请实施例中，异常检测结果也可以视为一个分类结果。

在本实施例中，将本次服务请求得出的服务调用链输入至异常检测模型中，如果模型输出的值为0，则表示本次请求时间段内系统无异常；如果模型输出值为1，则表示本次请求时间段内系统存在异常。

本发明的第三个目的可通过下列技术方案实现：一种异常检测装置，包括分布式跟踪数据处理模块401、监控数据处理模块402、数据聚合模块403、异常检测模块404。

分布式跟踪数据处理模块401，用于对目标系统的分布式跟踪数据进行处理得到服务调用链。

监控数据处理模块402，用于对目标系统的监控数据进行降维并嵌入进服务调用链中。

数据聚合模块403，用于对目标系统的服务调用链和监控数据向量进行组合，构建新的服务调用链。

异常检测模块404，用于将处理后的服务调用链作为异常检测模型的输入，得到所述异常检测模型输出的对所述目标系统的异常检测结果；所述异常检测模型为利用所述目标系统的历史数据和所述历史数据相应时间内的问题反馈数据训练获得的。

通过对目标系统的分布式跟踪和监控数据进行处理得到服务调用链，将服务调用链作为输入放入异常检测模型中，从而获得异常检测结果；本申请以训练好的异常检测模型辅助分析人员完成对目标系统的异常检测，降低了对分析人员的专业性要求，也不需要复杂的维护，因此能够在提升系统的异常检测效率的同时，降低实现难度和实现成本。

本申请实施例提供的技术方案中，能够利用机器学习算法对软件系统可能存在的异常进行自动检测，使得开发人员不必耗费大量的时间在系统问题定位，极大地提高了开发人员修复、优化、迭代软件系统的效率，缩减了人工成本。

本发明的第四个目的可通过下列技术方案实现：一种微服务系统中的故障检测装置，包括包括通信组件503、电源组件504、音频组件505、显示器506、存储器502、一个或多个处理器501、存储器502以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器502中，并且被配置成由所述一个或多个处理器501执行，所述程序包括用于执行上述的一种微服务系统中的故障检测方法。

存储器501可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器502，不仅仅局限于处理器(CPU)，还可能为图形处理器(GPU)、现场可编辑门阵列(FPGA)、嵌入式神经网络处理器(NPU)或人工智能(AI)芯片等处理芯片；处理器502，与存储器501耦合，执行存储器501所存储的程序，该程序运行时执行上述实施例的异常检测方法。

通信组件503被配置为便于电子设备和其他设备之间有线或无线方式的通信；电子设备可以接入基于通信标准的无线网络，如WiFi、3G、4G或5G，或它们的组合；在一个示例性实施例中，通信组件503经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息；在一个示例性实施例中，所述通信组件503还包括近场通信(NFC)模块，以促进短程通信；例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

电源组件504，为电子设备的各种组件提供电力；电源组件504可以包括电源管理系统，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。

音频组件505被配置为输出和/或输入音频信号；例如，音频组件505包括一个麦克风(MIC)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号；所接收的音频信号可以被进一步存储在存储器501或经由通信组件503发送；在一些实施例中，音频组件505还包括一个扬声器，用于输出音频信号。

显示器506包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)；如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号；触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势；所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

尽管本文较多地使用了大量术语，但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质；把它们解释成任何一种附加的限制都是与本发明精神相违背的。

Claims

1.一种异常检测模型的建立方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种异常检测模型的建立方法，其特征在于，还包括S2：对所述的异常检测模型进行优化；

3.一种微服务系统中的故障检测方法，其特征在于，基于权利要求1-2任意一项所述的一种异常检测模型的建立方法，还包括以下步骤：

4.一种异常检测装置，其特征在于，包括分布式跟踪数据处理模块，用于对目标系统的分布式跟踪数据进行处理得到服务调用链；监控数据处理模块，用于对目标系统的监控数据进行降维并嵌入进服务调用链中；数据聚合模块，用于对目标系统的服务调用链和监控数据向量进行组合，构建新的服务调用链；异常检测模块，用于将处理后的服务调用链作为异常检测模型的输入，得到所述异常检测模型输出的对所述目标系统的异常检测结果；所述异常检测模型为利用所述目标系统的历史数据和所述历史数据相应时间内的问题反馈数据训练获得的。

5.一种微服务系统中的故障检测装置，包括通信组件、电源组件、音频组件、显示器、一个或多个处理器、存储器以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行权利要求3的一种微服务系统中的故障检测方法。

6.根据权利要求5所述的一种微服务系统中的故障检测装置，其特征在于，所述通信组件还包括近场通信模块。

7.根据权利要求5所述的一种微服务系统中的故障检测装置，其特征在于，所述音频组件还包括近场麦克风和扬声器。

8.根据权利要求5所述的一种微服务系统中的故障检测装置，其特征在于，所述显示器还包括近场液晶显示器和触摸面板。