CN115016976B

CN115016976B - 一种根因定位方法、装置、设备及存储介质

Info

Publication number: CN115016976B
Application number: CN202210943808.8A
Authority: CN
Inventors: 王奕; 邱雪雄
Original assignee: Shenzhen Yishicheng Technology Co ltd
Current assignee: Shenzhen Yishicheng Technology Co ltd
Priority date: 2022-08-08
Filing date: 2022-08-08
Publication date: 2022-11-25
Anticipated expiration: 2042-08-08
Also published as: CN115016976A

Abstract

本发明涉及一种根因定位方法，涉及通信技术领域，该方法包括：判断服务器的业务数据是否存在第一异常；若所述业务数据存在所述第一异常，则依据预设拓扑关系信息获取与所述业务数据关联的第一目标服务器，得到服务器群组；判断所述服务器群组是否存在异常服务器，所述异常服务器为性能信息存在第二异常的第一目标服务器；若所述服务器群组存在异常服务器，获取与所述异常服务器关联的第二目标服务器，得到异常服务器群。在故障发生时,在大规模服务器集群中逐步排查并缩小可能发生故障服务器，避免通过人工对海量的日志进行分析筛选，解决了人力筛选下故障恢复的成本高、耗时长、效果差的问题。

Description

一种根因定位方法、装置、设备及存储介质

技术领域

本发明涉及通信技术领域，尤其涉及一种根因定位方法、装置、设备及存储介质。

背景技术

服务器集群规模庞大，基础架构复杂，运维的难度和成本居高不下，当出现业务指标异常或大量事件告警时，为了保证业务的正常运转，及时定位以及异常的自愈就成了重中之重。单纯通过运维人员来恢复，面对庞大的服务器集群规模无疑是杯水车薪。本申请着重于解决异常自愈的前提，在故障发生发起告警时,如何在大规模服务器集群中逐步排查并缩小可能发生故障服务器范围的方法。

发明内容

本发明提供了一种根因定位方法、装置、设备及存储介质，以解决在故障发生时,在大规模服务器集群中逐步排查并缩小可能发生故障服务器，避免通过人工对大量服务器以及海量的日志进行分析筛选，解决了人力筛选下故障恢复的成本高、耗时长、效果差的问题。

第一方面，本发明提供了一种根因定位方法，包括判断服务器的业务数据是否存在第一异常；若所述业务数据存在所述第一异常，则依据预设拓扑关系信息获取与所述业务数据关联的第一目标服务器，得到服务器群组；判断所述服务器群组是否存在异常服务器，所述异常服务器为性能信息存在第二异常的第一目标服务器；若所述服务器群组存在异常服务器，获取与所述异常服务器关联的第二目标服务器，得到异常服务器群。

第二方面，本发明提供了一种控制装置，包括用于执行如第一方面任一项实施例所述的根因定位方法的步骤。

第三方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面任一项实施例所述的根因定位方法的步骤。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的根因定位方法的步骤。

本发明实施例提供的上述技术方案与现有技术相比具有如下优点：

本发明实施例提供的该方法，在故障发生时,在大规模服务器集群中逐步排查并缩小可能发生故障服务器，避免通过人工对大量服务器以及海量的日志进行分析筛选，解决了人力筛选下故障恢复的成本高、耗时长、效果差的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种根因定位方法的流程示意图；

图2为本发明实施例提供的一种根因定位方法的子流程示意图；

图3为本发明实施例提供的一种根因定位方法的子流程示意图；

图4为本发明实施例提供的一种根因定位方法的子流程示意图；

图5为本发明实施例提供的一种根因定位方法的子流程示意图；

图6为本发明实施例提供的一种根因定位方法的子流程示意图；

图7为本发明实施例提供的一种效果示意图；

图8为本发明实施例提供的一种效果示意图；

图9为本发明实施例提供的一种效果示意图；

图10为本发明实施例提供的一种效果示意图；

图11为本发明实施例提供的一种控制装置结构示意图；

图12为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

图1为本发明实施例提供的一种根因定位方法的流程示意图。本发明实施例提出了一种根因定位方法，具体地，参见图1，该根因定位方法包括如下步骤S101-S104。

S101，判断服务器的业务数据是否存在第一异常。

具体实施中，业务数据又指业务指标，包括交易平均耗时、交易量、交易成功率等数据，通过算法组合捕获异常时间点，所述异常时间点均为单个时间点的异常，即单点异常，当检测到单点异常的时候会为当前时间序列开辟一个异常时间区间，进而判断异常时间区间的长度、判断异常时间点密度，根据异常时间区间的长度以及异常时间点密度是否超过阈值判定是否存在第一异常，若异常时间区间的长度或异常时间点密度超过阈值，则判定服务器的业务数据存在第一异常。

在一实施例中，参见图2，图2为本发明实施例提供的一种根因定位方法的子流程示意图。以上步骤S101包括步骤S201-S207：

S201，建立时间轴。

具体实施中，程序会为每一个服务器以及分析业务数据，业务数据包括交易量、交易平均耗时以及交易成功率，并建立一条时间轴，为了节省资源，没有检测到异常时间点时所述时间轴为空。

S202，按照时间顺序逐一判断所述业务数据的数据点是否为异常数据点。

具体实施中，通过算法组合捕获业务数据的数据点，并判断该数据点是否为异常数据点（即单点异常），当业务数据的数据点的数值超出算法的预估阈值，则判定所述业务数据的数据点为异常数据点。

在一实施例中，参见图3，图3为本发明实施例提供的一种根因定位方法的子流程示意图。以上步骤S202包括步骤S301-S302：

具体实施中，所述数据点包括总概率，基于LSTM与高斯分布的检测，LSTM进行交易量和交易平均耗时的异常检测，该预测具体可分为两步预测，第一步预测，通过LSTM算法对历史的交易量和交易平均耗时数据做窗口为w的滑动平均，并训练得到预测模型，通过实时程序驱动历史预测模型，对交易量和交易平均耗时进行实时预测。第二步，预测值和实际值间产生的误差导向正太分布，通过拉依达准则来判断该时间点是否异常。

基于概率密度的检测，主要用于业务成功率的曲线，针对交易成功率，通过成功率来判定是否异常具有不严谨性，如：交易成功经验概率为95%，4次交易失败2次成功率50%，100次交易失败40次成功率为40%，两次成功率相近，但是100次交易失败40次的异常程度极大，若采用成功率判断，则无法全面判定异常。在实际场景中可获得已知经验概率R、实时获取到分钟级的交易量t以及交易成功率p，依据公式s=t*p，可以计算得到成功的交易数量s；依据公式f=t*（1-p），可以计算得到失败的交易数量f，参见图8，恰好交易发生s次成功f次失败的概率EP（Exact probability），可通过第一公式

计算得到，所述业务数据包括交易量t以及交易成功率p，R为预设的经验概率，成功的交易数量s，失败的交易数量f，EP为发生s次成功f次失败的概率。参见图7表示，R=95%，t=400，x轴代表成功交易的个数（即s），y轴代表产生x笔成功交易的概率（即EP）,箭头对应点的代表的含义：当经验概率为百分95的时候（R=95%），总共发生400条交易（即t=400），恰好有378条成功（即s=378），22条失败(即f=22)的概率为0.078(即EP=0.078)。

具体实施中，为解决步骤S301存在的缺陷，求期望值EP来衡量发生s条成功交易f条失败交易的可能性不够全面，而由第一公式，可以得到成功次数s，可考虑发生 0-s次成功的总概率DCP，其中总概率DCP的结果由第二公式

计算得到，所述业务数据包括交易量t以及交易成功率p，R为预设的经验概率，成功的交易数量s=t*p，失败的交易数量f=t*（1-p），DCP为0-s次成功的总概率分布函数，这样可以将概率映射到0-1之间，避免分钟交易总量t的变化影响到概率分布的结果，参见图9，获得了函数性质更加符合业务的函数。

将成功次数代入总概率分布函数公式即可得到总概率。

S301，判断所述数据点的总概率与预设的总概率分布函数的误差是否大于预设的第二误差阈值。

具体实施中，通过判断所述数据点的总概率与预设的总概率分布函数的误差是否大于预设的第二误差阈值，确定数据点是否为异常数据点。

S302，若所述数据点的总概率与预设的总概率分布函数的误差大于预设的第二误差阈值，则判定所述业务数据的数据点为异常数据点。

具体实施中，若所述数据点的总概率与预设的总概率分布函数的误差大于预设的第二误差阈值，则判定所述业务数据的数据点为异常数据点；若所述数据点的总概率与预设的总概率分布函数的误差处于预设的第二误差阈值范围内，则判定数据点不为异常数据点，不做任何处理。

S203，若所述业务数据的数据点为异常数据点，在所述时间轴上将所述异常数据点标出，以所述异常数据点为起点，在所述时间轴上确定预设长度的目标时间区间。

具体实施中，若所述业务数据的数据点为异常数据点，时间轴会以该异常数据点为起始点，开辟时间跨度为wl（window length用户自定义）分钟的目标时间区间。

S204，按照时间顺序在所述时间轴上逐一标出所述目标时间区间内的数据点，并判断当前标出的数据点是否为异常数据点。

具体实施中，参见图10，建立时间跨度为wl（window length用户自定义）分钟的目标时间区间后，无论是否是异常数据点都会被放入时间轴中，如果mwt（Maximum waitingtime最大等待时间，用户自定义）之内没有继续发生单点异常，即mwt分钟的目标时间区间内全为小圆圈点（参见图10的时间轴1），则清空该目标时间区间，如果mwt（Maximumwaiting time最大等待时间，可自定义）之内判断有异常数据点，新建立mwt分钟的目标时间区间（参见图10的时间轴2）。

在一实施例中，参见图4，图4为本发明实施例提供的一种根因定位方法的子流程示意图。以上步骤S204包括步骤S501-S503：

S501，基于预设的历史数据、长短记忆循环神经网络以及高斯分布获得预测模型。

具体实施中，基于LSTM与高斯分布的检测，LSTM进行交易量和交易平均耗时的异常检测，该预测一共分两步，第一步预测，通过LSTM算法对历史的交易量和交易平均耗时数据做窗口为w的滑动平均，训练得到预测模型，通过实时程序驱动历史预测模型，对交易量和交易平均耗时做实时预测。

S502，判断所述业务数据的数据点与预测模型的预测值的误差是否大于预设的第一误差阈值。

具体实施中，判断获取的业务数据的数据点与预测模型的预测值的误差是否大于预设的第一误差阈值，并将预测值和实际值间产生的误差导向正太分布。

在一实施例中，参见图5，图5为本发明实施例提供的一种根因定位方法的子流程示意图。以上步骤S502包括步骤S601-S602：

S601，判断所述业务数据的数据点与预测模型的预测值的误差是否符合拉依达准则。

具体实施中，将预测值和实际值间产生的误差导向正太分布的结果通过拉依达准则进一步判断。

S602，若所述业务数据的数据点与预测模型的预测值的误差不符合拉依达准则，判定所述业务数据的数据点与预测模型的预测值的误差大于预设的第一误差阈值。

具体实施中，若所述业务数据的数据点与预测模型的预测值的误差不符合拉依达准则，则判定所述业务数据的数据点与预测模型的预测值的误差大于预设的第一误差阈值，若所述业务数据的数据点与预测模型的预测值的误差符合拉依达准则，则判定所述业务数据的数据点与预测模型的预测值符合标准偏差。

S503，若所述业务数据的数据点与预测模型的预测值的误差大于预设的第一误差阈值，则判定所述业务数据的数据点为异常数据点。

具体实施中，若所述业务数据的数据点与预测模型的预测值的误差大于预设的第一误差阈值，则所述业务数据的数据点与预测模型的预测值存在粗大误差，即所述业务数据的数据点为异常数据点。

S205，若当前标出的数据点为异常数据点，以当前标出的数据点为起点将所述目标时间区间延长预设长度。

具体实施中，如果mwt（Maximum waiting time最大等待时间，可自定义）判断有异常数据点，新建立mwt分钟的目标时间区间（参见图10的时间轴2）。

S206，判断所述目标时间区间的长度是否大于预设的长度阈值。

具体实施中，目标时间区间的长度大于mal（Minimum alarm length）最小告警长度时，会触发告警，目标时间区间最终延长的总长度。

S207，若所述目标时间区间的长度大于预设的长度阈值，判定服务器的业务数据存在第一异常。

具体实施中，若所述目标时间区间的长度大于预设的长度阈值，判定服务器的业务数据存在第一异常。

在一实施例中，参见图6，图6为本发明实施例提供的一种根因定位方法的子流程示意图。包括以上步骤S201-S207所有内容外，还包括步骤S208-S210：

S208，根据所述目标时间区间的长度以及所述目标时间区间包含的异常数据点的数量，确定所述目标时间区间的异常数据点密度。

具体实施中，计算异常数据点密度，比如20分钟的目标时间区间，发生10个异常数据点，则异常数据点密度为0.5。如果20分钟的目标时间区间，发生30个异常数据点则异常数据点密度为1.5。

S209，判断所述异常数据点密度是否大于预设的密度阈值。

具体实施中，通过判断异常数据点密度是否大于预设的密度阈值，判定服务器的业务数据存在第一异常。

S210，若所述异常数据点密度大于预设的密度阈值，判定服务器的业务数据存在第一异常。

具体实施中，若所述异常数据点密度大于预设的密度阈值，判定服务器的业务数据存在第一异常；若所述异常数据点密度不大于预设的密度阈值，则判定服务器的业务数据存在第一异常。

S102，若所述业务数据存在所述第一异常，则依据预设拓扑关系信息获取与所述业务数据关联的第一目标服务器，得到服务器群组。

具体实施中，预设拓扑关系信息指配置管理数据库(Configuration ManagementDatabase,CMDB)是一个逻辑数据库，包含了配置项全生命周期的信息以及配置项之间的关系(包括物理关系、实时通信关系、非实时通信关系和依赖关系)。CMDB存储与管理企业IT架构中设备的各种配置信息，它与所有服务支持和服务交付流程都紧密相联，支持这些流程的运转、发挥配置信息的价值，同时依赖于相关流程保证数据的准确性。通过事先配置好的拓扑关系（CMDB）获取影响该业务的所有服务器，结合第一异常获取与所述业务数据关联的第一目标服务器，得到服务器群组。

S103，判断所述服务器群组是否存在异常服务器，所述异常服务器为性能信息存在第二异常的第一目标服务器。

具体实施中，进一步筛查服务器群组中的性能信息，将性能信息存在第二异常的第一目标服务器记录为异常服务器。

S104，若所述服务器群组存在异常服务器，获取与所述异常服务器关联的第二目标服务器，得到异常服务器群。

具体实施中，获取异常服务器关联的第二目标服务器，得到异常服务器群，初步定位异常服务器群（模糊根因），可反馈给运维人员。

在一实施例中，以上方法还包括：将所述异常服务器群推送给监控终端。

具体实施中，可将步骤S104得到的异常服务器群推送至监控终端，提供运维人员进行检测维护。

实施例2

参见图11本发明实施例还提供了一种控制装置800，该控制装置800包括第一判断单元801、第一获取单元802、第二判断单元803以及第二获取单元804。

第一判断单元801,用于判断服务器的业务数据是否存在第一异常。

在一实施例中，以上第一判断单元801具体包括：

建立时间轴；

按照时间顺序逐一判断所述业务数据是否存在异常数据点，所述异常数据点的数值大于预设阈值；

若所述业务数据存在异常数据点，在所述时间轴上将所述异常数据点标出，以所述异常数据点为起点，在所述时间轴上确定预设长度的目标时间区间；

按照时间顺序在所述时间轴上逐一标出所述目标时间区间内的数据点，并判断当前标出的数据点是否为异常数据点；

若当前标出的数据点为异常数据点，以当前标出的数据点为起点将所述目标时间区间延长预设长度；

判断所述目标时间区间的长度是否大于预设的长度阈值；

若所述目标时间区间的长度大于预设的长度阈值，判定服务器的业务数据存在第一异常。

第一获取单元802,用于若所述业务数据存在所述第一异常，则依据预设拓扑关系信息获取与所述业务数据关联的第一目标服务器，得到服务器群组

第二判断单元803,用于判断所述服务器群组是否存在异常服务器，所述异常服务器为性能信息存在第二异常的第一目标服务器

第二获取单元804,用于若所述服务器群组存在异常服务器，获取与所述异常服务器关联的第二目标服务器，得到异常服务器群

如图12所示，本发明实施例提供了一种电子设备，包括处理器111、通信接口112、存储器113和通信总线114，其中，处理器111，通信接口112，存储器113通过通信总线114完成相互间的通信，

存储器113，用于存放计算机程序；

在本发明一个实施例中，处理器111，用于执行存储器113上所存放的程序时，实现前述任意一个方法实施例提供的根因定位的控制方法。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述任意一个方法实施例提供的根因定位方法的步骤。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种根因定位方法，其特征在于，所述方法包括：

判断服务器的业务数据是否存在第一异常；

若所述业务数据存在所述第一异常，则依据预设拓扑关系信息获取与所述业务数据关联的第一目标服务器，得到服务器群组；

判断所述服务器群组是否存在异常服务器，所述异常服务器为性能信息存在第二异常的第一目标服务器；

若所述服务器群组存在异常服务器，获取与所述异常服务器关联的第二目标服务器，得到异常服务器群；

其中，所述业务数据包括多个按照时间顺序排列的数据点；所述判断服务器的业务数据是否存在第一异常，包括：

建立时间轴；

按照时间顺序逐一判断所述业务数据的数据点是否为异常数据点；

若所述业务数据的数据点为异常数据点，在所述时间轴上将所述异常数据点标出，以所述异常数据点为起点，在所述时间轴上确定预设长度的目标时间区间；

判断所述目标时间区间的长度是否大于预设的长度阈值；

2.根据权利要求1所述的方法，其特征在于，所述判断服务器的业务数据是否存在第一异常，包括：

建立时间轴；

根据所述目标时间区间的长度以及所述目标时间区间包含的异常数据点的数量，确定所述目标时间区间的异常数据点密度；

判断所述异常数据点密度是否大于预设的密度阈值；

若所述异常数据点密度大于预设的密度阈值，判定服务器的业务数据存在第一异常。

3.根据权利要求1所述的方法，其特征在于，所述按照时间顺序逐一判断所述业务数据的数据点是否为异常数据点，包括：

基于预设的历史数据、长短记忆循环神经网络以及高斯分布获得预测模型；

判断所述业务数据的数据点与预测模型的预测值的误差是否大于预设的第一误差阈值；

若所述业务数据的数据点与预测模型的预测值的误差大于预设的第一误差阈值，则判定所述业务数据的数据点为异常数据点。

4.根据权利要求3所述的方法，其特征在于，判断所述业务数据的数据点与预测模型的预测值的误差是否大于预设的第一误差阈值，包括：

判断所述业务数据的数据点与预测模型的预测值的误差是否符合拉依达准则；

若所述业务数据的数据点与预测模型的预测值的误差不符合拉依达准则，判定所述业务数据的数据点与预测模型的预测值的误差大于预设的第一误差阈值。

5.根据权利要求3所述的方法，其特征在于，所述数据点包括总概率，所述按照时间顺序逐一判断所述业务数据的数据点是否为异常数据点，包括：

判断所述数据点的总概率与预设的总概率分布函数的误差是否大于预设的第二误差阈值；

若所述数据点的总概率与预设的总概率分布函数的误差大于预设的第二误差阈值，则判定所述业务数据的数据点为异常数据点。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述异常服务器群推送给监控终端。

7.一种控制装置，其特征在于，包括用于执行如权利要求1-6任一项所述方法的单元。

8.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-6任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的方法的步骤。