CN114077510A

CN114077510A - 一种故障根因定位和故障根因显示的方法和装置

Info

Publication number: CN114077510A
Application number: CN202010802751.0A
Authority: CN
Inventors: 黄荣庚; 董善东; 黄小龙; 姚华宁; 李雄政
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-11
Filing date: 2020-08-11
Publication date: 2022-02-22

Abstract

本申请属于数据处理技术领域，公开了一种故障根因定位和故障根因显示的方法和装置，本申请公开的一种故障根因定位的方法包括，当监控客户端监控到指标出现异常时，通过告警通知页面显示异常指标值，并向服务器发送告警通知。服务器接收到告警通知后，分别获取每一属性对应的正常指标值和异常指标值，并根据各属性的正常指标值和异常指标值，分别确定每一属性的异常分数值，以及根据各属性对应的异常分数值，确定各属性中的故障根因。当监控客户端接收到服务器返回的各目标维度的故障根因和相应的异常分数值时，在故障定位页面中显示各目标维度的故障根因和异常分数值，提高了故障根因定位的准确度。

Description

一种故障根因定位和故障根因显示的方法和装置

技术领域

本申请涉及数据处理技术领域，尤其涉及一种故障根因定位和故障根因显示的方法和装置。

背景技术

在智能运维领域中，通常对系统的指标数据等进行监控，当确定指标异常时，判定系统出现故障，则从系统的各属性中，确定最可能造成系统故障的属性，即故障根因，从而可以进一步修复止损。

现有技术下，故障根因定位时，通常仅根据属性的异常指标数据，判断该属性是否为故障根因。

但是，仅根据异常指标数据确定出的故障根因，定位的准确度较低。由此需要一个可以提高故障根因定位的准确度的故障根因定位技术方案。

发明内容

本申请实施例提供一种故障根因定位和故障根因显示的方法和装置，用以在进行故障根因定位的时，提高故障根因定位的准确度，降低成本，提高效率。

一方面，提供一种故障根因定位的方法，包括：

当接收到告警通知时，分别获取目标维度对应的各个属性中，每个属性对应的指标时间序列，指标时间序列包括按照时间顺序排列的多个指标值，目标维度至少对应两个属性；

分别从每一属性对应的指标时间序列中，筛选出相应属性的正常指标值和异常指标值；

根据各属性的正常指标值和异常指标值，分别确定每一属性的异常分数值；

根据各属性对应的异常分数值，确定各属性中的故障根因。

一方面，提供一种故障根因显示的方法，采用上述任一种故障根因定位的方法获得的故障根因，包括：

基于获取的系统对应的指标时间序列，显示业务监控页面；

根据系统对应的指标时间序列，确定指标异常时，在告警分析页面中显示异常指标值和相应的异常时间，并向服务器发送告警通知；

当接收到服务器基于告警通知返回的各目标维度的故障根因和相应的异常分数值时，在故障根因显示页面中，显示各目标维度的故障根因和相应的异常分数值。

一方面，提供一种故障根因定位的装置，包括：

获取单元，用于当接收到告警通知时，分别获取目标维度对应的各个属性中，每个属性对应的指标时间序列，指标时间序列包括按照时间顺序排列的多个指标值，目标维度至少对应两个属性；

筛选单元，用于分别从每一属性对应的指标时间序列中，筛选出相应属性的正常指标值和异常指标值；

第一确定单元，用于根据各属性的正常指标值和异常指标值，分别确定每一属性的异常分数值；

第二确定单元，用于根据各属性对应的异常分数值，确定各属性中的故障根因。

较佳的，第一确定单元用于：

分别确定每一属性对应的多个异常指标值的第一平均值；

分别确定每一属性对应的多个正常指标值的第二平均值；

分别确定各属性对应的多个异常指标值的第一总平均值；

分别确定各属性对应的多个正常指标值的第二总平均值；

分别根据每一属性对应的第一平均值和第二平均值，以及第一总评均值和第二总平均值，确定相应属性的异常分数值；

其中，异常分数值与第一平均值和第二总平均值均呈正相关，且与第二平均值和第一总评均值均呈负相关。

较佳的，第二确定单元用于：

按照第一预设筛选条件或第二预设筛选条件，对各属性进行筛选，并将筛选出的属性，确定为故障根因；或者，

分别按照第一预设筛选条件和第二预设筛选条件，对各属性进行筛选，并将根据第一预设筛选条件和第二预设筛选条件筛选出的共同的属性，确定为故障根因。

较佳的，第二确定单元用于：

将各属性的异常分数值，按照由高到低的顺序进行排序；

按照各异常分数值的排序，从各异常分数值中，依次取出一个异常分数值，并按照预设正态分布检验算法对余下的异常分数值进行检验，直至检验结果表征余下的异常分数值符合正态分布。

较佳的，第二确定单元用于：

将各属性的异常分数值，按照由高到低的顺序进行排序；

按照各异常分数值的排序，从各异常分数值中，依次取出一个异常分数值，并确定余下的异常分数值的极差或方差，直至确定出的极差低于预设极差阈值，或者确定出的方差低于预设方差阈值。

较佳的，第二确定单元还用于：

将各属性的故障根因之外的属性，确定为受影响属性。

较佳的，第二确定单元还用于：

从各属性中，去除低于预设分数阈值的异常分数值对应的属性。

一方面，提供一种故障根因显示的装置，采用上述任一种故障根因定位的方法获得的故障根因，包括：

监控单元，用于基于获取的系统对应的指标时间序列，显示业务监控页面；

告警单元，用于根据系统对应的指标时间序列，确定指标异常时，在告警分析页面中显示异常指标值和相应的异常时间，并向服务器发送告警通知；

定位单元，用于当接收到服务器基于告警通知返回的各目标维度的故障根因和相应的异常分数值时，在故障根因显示页面中，显示各目标维度的故障根因和相应的异常分数值。

一方面，提供一种控制设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时执行上述任一种故障根因定位或者故障根因显示的方法的步骤。

一方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一种故障根因定位或故障根因显示的方法的步骤。

一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任一种故障根因定位的各种可选实现方式中提供的方法。

本申请实施例提供的一种故障根因定位和故障根因显示的方法和装置中，当监控客户端监控到指标出现异常时，通过告警通知页面显示各异常指标值，并向服务器发送告警通知。服务器接收到告警通知时，分别获取每一属性对应的正常指标值和异常指标值，并根据各属性的正常指标值和异常指标值，分别确定每一属性的异常分数值，以及根据各属性对应的异常分数值，确定各属性中的故障根因。当监控客户端接收到服务器返回的各目标维度的故障根因和相应的异常分数值时，通过故障定位页面显示各目标维度的故障根因和异常分数值。这样，提高了故障根因定位的准确度和定位效率，降低了故障根因的成本。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施方式中一种故障根因定位的系统架构示意图；

图2为本申请实施方式中一种故障根因定位的流程示意图；

图3a为本申请实施方式中一种业务监控页面的示例图；

图3b为本申请实施方式中一种指标日志记录；

图3c为本申请实施方式中一种告警分析页面；

图3d为本申请实施方式中一种指标划分示例图；

图3e为本申请实施方式中一种故障根因确定方法的实施流程图；

图3f为本申请实施方式中一种属性划分展示页面示例图；

图3g为本申请实施方式中一种故障根因汇总示例图；

图4为本申请实施方式中一种故障根因显示的方法的实施流程图；

图5a为本申请实施方式中一种告警时间分布页面的示例图；

图5b为本申请实施方式中一种故障根因显示页面的示例图；

图6a为本申请实施方式中一种故障根因定位的装置的结构示意图；

图6b为本申请实施方式中一种故障根因显示的装置的结构示意图；

图7为本申请实施方式中一种控制设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

首先对本申请实施例中涉及的部分用语进行说明，以便于本领域技术人员理解。

终端设备：可以是移动终端、固定终端或便携式终端，例如移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统设备、个人导航设备、个人数字助理、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。还可预见到的是，终端设备能够支持任意类型的针对用户的接口(例如可穿戴设备)等。

服务器：可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云服务器。

监控客户端：是指与服务器相对应，为客户提供本地服务的程序。除了一些只在本地运行的应用程序之外，一般安装在普通的客户机上，需要与服务端互相配合运行。因特网发展以后，较常用的用户端包括了如万维网使用的网页浏览器，收寄电子邮件时的电子邮件监控客户端，以及即时通讯的监控客户端软件等。对于这一类应用程序，需要网络中有相应的服务器和服务程序来提供相应的服务，如数据库服务，电子邮件服务等，这样在客户机和服务器端，需要建立特定的通信连接，来保证应用程序的正常运行。

时间序列：是一组按照时间发生先后顺序进行排列的数据点序列。通常一组时间序列的时间的间隔为一恒定值(如1秒钟，1分钟，5分钟)。此处时间序列主要指监控类的时间序列。

指标时间序列：包含按照时间顺序排列的指标值，为一种基于按照时间发生先后顺序进行排列的多个指标值的时间序列。

夏皮罗(Shapiro)双边检验：是一种在频率上统计检验中检验正态性的方法。

极差：一组数据中的最大数据与最小数据的差叫做这组数据的极差。

方差：描述的是数据的离散程度，也就是变量离其期望值的距离。

故障根因：导致指标异常的根本原因，即导致指标异常的概率较大的一个或多个属性。

客户端：是指与服务器相对应，为客户提供本地服务的程序。除了一些只在本地运行的应用程序之外，一般安装在普通的客户机上，需要与服务端互相配合运行，如，网页浏览器。

云存储：是在云计算概念上延伸和发展出来的一个新的概念，分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能，将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作，共同对外提供数据存储和业务访问功能的一个存储系统。

目前，存储系统的存储方法为：创建逻辑卷，在创建逻辑卷时，就为每个逻辑卷分配物理存储空间，该物理存储空间可能是某个存储设备或者某几个存储设备的磁盘组成。客户端在某一逻辑卷上存储数据，也就是将数据存储在文件系统上，文件系统将数据分成许多部分，每一部分是一个对象，对象不仅包含数据而且还包含数据标识等额外的信息，文件系统将每个对象分别写入该逻辑卷的物理存储空间，且文件系统会记录每个对象的存储位置信息，从而当客户端请求访问数据时，文件系统能够根据每个对象的存储位置信息让客户端对数据进行访问。

存储系统为逻辑卷分配物理存储空间的过程，具体为：按照对存储于逻辑卷的对象的容量估量(该估量通常相对于实际要存储的对象的容量有很大余量)和独立冗余磁盘阵列(Redundant Array of Independent Disk，RAID)的组别，预先将物理存储空间划分成分条，一个逻辑卷可以理解为一个分条，从而为逻辑卷分配了物理存储空间。

数据库(Database)：简而言之可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

数据库管理系统：是为管理数据库而设计的电脑软件系统，一般具有存储、截取、安全保障、备份等基础功能。数据库管理系统可以依据它所支持的数据库模型来作分类，例如关系式、可扩展标记语言或依据所支持的计算机类型来作分类，例如服务器群集、移动电话；或依据所用查询语言来作分类，例如，结构化查询语言(Structured QueryLanguageSQL、XQuery；或依据性能冲量重点来作分类，例如，最大规模、最高运行速度；亦或其他的分类方式。不论使用哪种分类方式，一些数据库管理系统能够跨类别，例如，同时支持多种查询语言。

下面介绍本申请实施例的设计思想。

在智能运维领域中，通常对系统的指标数据等进行监控，当确定指标异常时，判定系统出现故障，则从系统的各属性中，确定最可能造成系统故障的属性，即故障根因，从而可以进一步修复止损。其中，指标数据可以为各时间点的关键绩效指标(Key PerformanceIndicator，KPI)。KPI指标可以为设备指标以及服务指标等。

现有技术下，故障根因定位时，通常通过人工仅根据属性的异常指标数据，判断该属性是否为故障根因，或者通过模型定位的方式，确定故障根因。

但是，仅根据异常指标数据确定出的故障根因，定位的准确度较低，且人力成本和时间成本较高，以及采用模型定位的方式，会耗费大量的存储资源和计算资源，且定位效率较低。

显然，传统技术中并没有提供一种可以提高定位准确度和定位效率，降低成本的故障根因定位的技术方案，因此，需要一种可以故障根因定位的技术方案，以提高故障根因定位的准确度和定位效率，降低故障根因的成本。

考虑到可以将异常指标数据和正常指标数据结合定位故障根因，还可以通过异常分数值确定属性的异常可能性，进而确定和显示故障根因，本申请实施例中提供了一种故障根因定位的方案，该方案中，当监控到指标出现异常时，通过告警通知页面显示异常指标数据，并向服务器发送告警通知。服务器接收到告警通知后，分别获取每一属性对应的正常指标值和异常指标值，并根据各属性的正常指标值和异常指标值，分别确定每一属性的异常分数值，以及根据各属性对应的异常分数值，确定各属性中的故障根因，并通过监控客户端的故障定位页面显示各目标维度的故障根因和异常分数值。

为进一步说明本申请实施例提供的技术方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。方法在实际的处理过程中或者装置执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行。

参阅图1所示，为一种故障根因定位的系统的架构示意图。系统包括终端设备100和服务器101。

服务器101：用于接收到告警通知时，根据系统的各属性的正常指标数据和异常指标数据，分别确定每一属性的异常分数值，进而根据各属性的异常分数值，确定故障根因，以及将故障根因发送至监控客户端。

其中，告警通知可以是监控客户端发送的，也可以是服务器101检测到指标异常时触发的，还可以是其它设备发送的。

服务器101中的指标数据即正常指标数据和异常指标数据，可以是其它设备上传的，也可以是其它设备通过日志服务器上传的，还可以是监控客户端上传的。可选的，指标数据可以采用指标时间序列的形式上传，也可以采用其它格式传输。指标数据通常是通过业务数据计算后获得的。通过指标数据可以判断被监控的系统是否出现异常等。

例如，指标可以为；业务内部成功率、业务内部错误次数，请求成功率、请求成功数、请求失败数，总请求次数、总体请求平均时延等。

需要说明的是，指标数据通常涉及至少一个维度，一个维度对应至少一个属性。其中，指标数据可以采用云存储或者数据库的方式进行存储，并可以通过数据库管理系统对指标数据进行管理。

例如，维度可以为：接口、主账号uin、请求来源、请求监控客户端、请求地域、错误码、请求密码ID以及子账号uin等。

指标数据的异常会通过涉及的维度对应的属性反应出来。也就是说，可以从各属性中，确定造成指标异常的根本原因。

例如，指标为网页访问量，涉及的多个维度为：用户位置、网络运营商、数据中心。用户位置对应的属性为：北京、上海、广州。网络运营商对应的属性为：移动、联通和电信。数据中心为：第一数据中心和第二数据中心。网页访问量异常时，可以通过用户位置、网络运营商以及数据中心三者对应的属性反映出来，进而可以确定造成网页访问量异常的维度和属性。

监控客户端：用于在业务监控页面中展示接收的指标数据，以对指标数据进行监控；还用于当确定指标数据异常时，在告警分析页面中，显示异常指标数据和相应的异常时间，并向服务器101发送告警通知；还用于接收服务器101发送的故障根因和相应的异常分数值，并在故障根因显示页面中显示故障根因和异常分数值。

其中，监控客户端可以设置于终端设备100中，也可以设置于服务器101中。例如，监控客户端为云监控助手小程序。本申请实施例中，仅以终端设备100中设置有监控客户端为例进行说明。

其中，由于一个页面中，可以显示划分为不同的页面模块，从而通过不同的页面模块显示不同的内容，因此，业务监控页面、告警分析页面以及故障根因显示页面可以为同一页面，也可以为不同的页面，在此不作限制。

参阅图2所示，为本申请提供的一种故障根因定位的方法的实施流程图。该方法的具体流程如下：

步骤200：监控客户端基于获取的系统对应的指标时间序列，显示业务监控页面。

具体的，监控客户端实时或者周期性接收其它设备发送的系统对应的指标数据，并根据接收的指标数据，确定系统对应的指标时间序列，以及根据指标时间序列，在业务监控页面中，实时更新显示的指标值和相应的时间。

其中，业务监控页面中，可以采用曲线或者表格等方式，显示指标和时间的对应关系。

例如，参阅图3a所示，为一种业务监控页面的示例图。横坐标为时间，纵坐标为成功率(指标)，监控客户端根据成功率指标序列，显示成功率曲线。成功率曲线表示成功率和时间的对应关系。

其中，系统对应的指标时间序列是系统对应的各指标值组成的，且指标时间序列中的各指标值是按照产生的时间的先后顺序进行排列的。

需要说明的是，从统计分析的角度看，指标可以分为量值KPI和率值KPI。量值KPI，具有可加性，如，成功数以及访问总量等，率值KPI是推到得到的，如，点击率和成功率等。系统对应的指标值可以根据各维度的各属性对应指标值确定。

例如，假设指标为网页访问量，维度为用户位置，属性为上海、北京等各区域。系统对应的网页访问量为：各区域的网页访问量的加和。

其中，指标数据是可以采用指标时间序列的方式传输，也可以采用其它格式，在此不作限制。

一种实施方式中，日志服务器从指标日志记录中，提取指标时间序列，并将指标时间序列按照指定的格式发送至监控客户端。

例如，参阅图3b所示，为一种指标日志记录。日志记录中包括时间戳、维度、属性以及指标。其中，D表示维度，E表示属性，n为表示属性序号。通过日志记录可以提取出系统对应的指标时间序列。

这样，用户就可以通过监控客户端对指标数据进行实时监控。

步骤201：监控客户端根据系统对应的指标时间序列，确定指标异常时，在告警分析页面中显示异常指标值和相应的异常时间，并向服务器发送告警通知。

具体的，监控客户端确定指标异常时，可以采用以下几种方式中的任意一种：

第一种方式为：针对指标时间序列中的各指标值，当确定预设异常时长内位于预设异常区间的指标值的数量高于预设异常数量阈值时，确定指标异常。

第二种方式为：确定当前监控周期对应的指标时间序列，与上一监控周期对应的指标时间序列的差值，获得差值时间序列。针对差值时间序列中的各差值，当确定预设异常时长内位于预设异常区间的差值的数量高于预设异常数量阈值时，确定指标异常。

进一步地，采用第一种方式或第二种方式时，还可以将根据上述预设异常时长内位于预设异常区间的指标值，确定异常时间段和异常指标值。

一种实施方式中，异常时间段的时长为预设异常时长，且包含上述位于预设异常区间的指标值，以及将该异常时间段内的指标值，确定为异常指标值。

一种实施方式中，异常指标值为上述预设异常时长内位于预设异常区间的指标值，异常指标值对应的时间点组成异常时间段。

例如，假设预设异常时长为10分钟，预设异常区间为[0.6,0.8]，预设异常数量阈值为5，监控客户端确定3-13分钟内存在7个指标值位于[0.6,0.8]，则确定指标异常，并将3-13分钟内的指标值确定为异常指标值。

第三种方式为：从各指标值中筛选出位于预设异常区间的指标值，若筛选出的各指标值为连续的且持续时长高于预设时长阈值，则确定指标异常。

第四种方式为：确定当前监控周期对应的指标时间序列，与上一监控周期对应的指标时间序列的差值，获得差值时间序列，针对差值时间序列中的各差值，从各指标值中筛选出位于预设异常区间的差值，若筛选出的各差值为连续的且持续时长高于预设时长阈值，则确定指标异常。

进一步地，采用上述第三种方式或第四种方式时，可以将上述包含筛选出的连续的且持续时长高于预设时长阈值的指标值或差值的时间段，确定为异常时间段，并将该异常时间段内的指标值，确定为异常指标值。

实际应用中，预设异常时长、预设异常区间、预设异常数量阈值以及预设时长阈值均可以根据实际应用场景进行设置，如，预设异常区间为[0.6,0.8]，预设时长阈值为1分钟，在此不作限制。

其中，告警页面中至少包括异常指标值以及相应的异常时间段。在告警分析页面中显示异常指标值和相应的异常时间段时，可以采用以下几种方式中的任意一种或任意组合：

第一种方式为：告警页面中仅显示每一异常指标值和相应的时间。

第二种方式为：告警页面中实时显示各指标值和相应的时间，通过高亮或者颜色等方式，标识出各异常指标值和相应的异常时间段。

第三种方式为：告警页面中实时显示当前监控周期内的各指标值和相应时间，以及上一监控周期的各历史指标值和时间，并通过高亮或者颜色等方式，标识出各异常指标值和相应的异常时间段。

实际应用中，监控周期可以根据实际应用场景进行设置，如，监控周期为1天、一周或一年等。

例如，假设监控周期为1天，3-5点为异常时间段，则告警页面显示今天和昨天的业务内部成功率，并标识出3-5点内的业务内部成功率为异常数据。

可选，告警页面中可以采用文字、图表以及曲线等形式展示各指标值和相应的时间，在此不做限制。

例如，参阅图3c所示，为一种告警分析页面。假设，成功率曲线表示成功率和时间之间的对应关系。5.9号6点-9点之间的成功率数据异常。则告警分析页面中显示有5.9号10点-11点之间的成功率曲线，并显示5.8号10点-11点之间的成功率曲线。以及采用高亮加粗的方式，突出显示5.9号6点-9点之间的成功率曲线。

这样，就可以在系统运行异常时，触发显示异常指标值和相应时间，以便用户可以查看异常指标数据。

其中，告警通知中可以包括目标维度，也可以包括系统标识。使得后续步骤中，服务器可以针对目标维度进行故障根因定位，还可以根据系统标识，获取系统标识对应设置的目标维度，进而针对目标维度进行故障根因定位。目标维度的数量可以为一个，也可以为多个。目标维度可以根据用户的指令实时设置，也可以为预先默认设置的。

步骤202：当接收到告警通知时，服务器分别获取目标维度对应的各个属性中，每个属性对应的指标时间序列。

具体的，服务器接收到告警通知后，根据告警通知确定目标维度，并分别获取每一目标维度的每一属性的各属性对应的指标时间序列。

由于当一个维度仅对应一个属性时，不需要进行故障排查，即可知道该属性导致指标异常，而当一个维度对应至少两个属性时，不能唯一确定哪一个属性导致指标异常，因此，目标维度可以为至少对应两个属性的维度。

当一个维度仅对应一个属性时，监控客户端和服务器均可以直接将该维度对应的属性确定为基本信息。

步骤203：服务器分别从每一属性对应的指标时间序列中，筛选出相应属性的正常指标值和异常指标值。

具体的，服务器确定属性的异常指标值时，具体步骤可以参见上述步骤201。

其中，确定正常指标值时，可以采用以下任意一种方式：

第一种方式为：将非异常指标值，确定为正常指标值。

第二种方式为：获取异常指标值对应的异常时间段，并根据指标时间序列对应的总时间段、异常时间段和预设过渡时长，确定正常时间段，以及将正常时间段内的指标值，确定为正常指标值。

一种实施方式中，将异常时间段前后预设过渡时长对应的时间段，作为过渡时间段，在总时间段中去除异常时间段，以及过渡时间段，获得正常时间段。

实际应用中，预设过渡时长可以根据实际应用场景进行设置，如，10分钟，在此不作限制。

参阅图3d所示，为一种指标划分示例图。图3d中显示了指标曲线，横坐标为时间，纵坐标为指标值。将总时间段划分为正常时间段、过渡时间段以及异常时间段。进而可以根据划分出的异常时间段和正常时间段，确定出异常指标值和正常指标值。

采用这种方式，在正常时间段和异常时间段之间设置了过渡时间段，将过渡时间段作为正常指标值到异常指标值之间的过渡缓冲，以提高后续故障根因定位的准确性。

进一步地，异常指标值和正常指标值划分时，还可以采用其它方式，在此不作限制。

这样，就可以筛选出每一属性对应的异常指标值和正常指标值。

步骤204：服务器根据各属性的正常指标值和异常指标值，分别确定每一属性的异常分数值。

具体的，执行步骤204时，服务器可以采用以下步骤：

S2041：服务器分别确定每一属性对应的多个异常指标值的第一平均值，并分别确定每一属性对应的多个正常指标值的第二平均值。

这样，就可以分别针对每一属性，确定该属性的第一平均值和第二平均值。既考虑了单个属性的异常指标值，还考虑了其正常指标值。

S2042：服务器分别确定各属性对应的多个异常指标值的第一总平均值，并分别确定各属性对应的多个正常指标值的第二总平均值。

这样，就可以基于各属性的指标数据，确定第一总平均值和第二总平均值。既综合考虑了各属性的异常指标值，还综合考虑了各属性的正常指标值。

S2043：服务器分别根据每一属性对应的第一平均值和第二平均值，以及第一总评均值和第二总平均值，确定相应属性的异常分数值。

具体的，异常分数值与第一平均值和第二总平均值均呈正相关，且与第二平均值和第一总评均值均呈负相关。

一种实施方式中，服务器分别针对每一属性，执行以下步骤：

确定该属性对应的第一平均值和第二平均值之间的第一差值，并确定第一总平均值和第二总平均值之间的第二差值，并将第一差值与第二差值之间的比值，确定为该属性对应的异常分数值。

可选的，确定异常分数值时，可以采用以下公式：

f＝(p1-p2)/(s1-s2)；

其中，f为异常分数值，p1为第一平均值，p2为第二平均值，s1为第一总平均值，s2为第二总平均值。

进一步地，确定异常分数值时，还可以采用其它方式，如，异常指标值数量的占比，熵的计算方式，利用先验概率和后验概率进行计算，或者决策树中的基尼(gini)系数、信息增益等方式。

进一步地，服务器还可以从各属性中，去除低于预设分数阈值的异常分数值对应的属性。

实际应用中，预设分数阈值可以根据实际应用场景进行设置，如，预设分数阈值为0，或者10，在此不作限制。

由于异常分数值大于预设分数阈值时，说明该属性发生了异常，异常分数值越大，则表示该属性异常情况越严重，该属性为故障根因的可能性越大，反之，则异常问题越小，该属性为故障根因的可能性越小。因此，可以去除异常可能性较小的属性，以便降低处理资源的消耗，提高后续故障根因定位的效率。

步骤205：服务器根据各属性对应的异常分数值，确定各属性中的故障根因，并将各属性的故障根因之外的属性，确定为受影响属性。

具体的，执行步骤205时，服务器可以采用以下两种方式：

第一种方式为：服务器按照第一预设筛选条件或第二预设筛选条件，对各属性进行筛选，并将筛选出的属性，确定为故障根因。

第二种方式为：服务器分别按照第一预设筛选条件和第二预设筛选条件，对各属性进行筛选，并将根据第一预设筛选条件和所述第二预设筛选条件筛选出的共同的属性，确定为故障根因。

其中，按照第一预设筛选条件，对各属性进行筛选时，可以采用以下步骤：

服务器将各属性的异常分数值，按照由高到低的顺序进行排序，按照各异常分数值的排序，从各异常分数值中，依次取出一个异常分数值，并按照预设正态分布检验算法对余下的异常分数值进行检验，直至检验结果表征余下的异常分数值符合正态分布。

其中，正态分布检验算法用于确定多个数据是否符合正态分布。

可选的，正态分布检验算法可以为Shapiro双边检验。

一种实施方式中，按照各属性的排序，从各属性中取出一个属性之后，通过Shapiro双边检验判断剩余的属性对应的异常分数值是否符合正态分布，若是，则停止筛选，否则，继续从各属性中取出第二个属性，再次通过Shapiro双边检验判断剩余的属性对应的异常分数值是否符合正态分布，若是，则停止筛选，否则，继续从各属性中取出第三个属性，……，依次类推，直至确定剩余的属性对应的异常分数值符合正态分布，在此不做赘述。

这样，若余下的属性对应的异常分数值符合正态分布，则说明指标异常时，余下的各属性受到了相似或相近的影响，则将余下的属性确定为受影响属性，并将筛选出的属性确定为故障根因。

其中，按照第二预设筛选条件，对各属性进行筛选时，可以采用以下步骤：

将各属性的异常分数值，按照由高到低的顺序进行排序，并按照各异常分数值的排序，从各异常分数值中，依次取出一个异常分数值，并确定余下的异常分数值的极差或方差，直至确定出的极差低于预设极差阈值，或者确定出的方差低于预设方差阈值。

也就是说，通过余下的异常分数值的极差或方差，判断筛选出的属性是否为故障根因。

其中，极差为各异常分数值中的最大值与最小值之间的差值。

实际应用中，预设极差阈值和预设方差阈值均可以根据实际应用场景进行设置，例如，预设极差阈值为10，又例如，预设方差阈值为5，在此不做限制。

这样，若确定出的极差低于预设极差阈值，或者确定出的方差低于预设方差阈值时，则说明指标异常时，余下的各属性受到了相似或相近的影响，判定余下的属性为受影响属性，而筛选出的属性为故障根因。

本申请实施例中，可以采用正态分布检验算法，极差以及方差三种方式中的任意一种，确定故障根因，还可以将正态分布检验算法与极差或方差结合的方式，确定故障根因，从而提高故障根因确定的准确度。

进一步地，服务器还将仅对应一个属性的目标维度，确定为基本信息。

一种实施方式中，参阅图3e所示，为一种故障根因确定方法的实施流程图。服务器确定故障根因时，分别针对每一目标维度，可以采用以下步骤：

S2052：获取包含正常指标值和异常指标值的指标数据。

S2051：判断一个目标维度对应的属性数量是否仅为一个，若是，则执行S2052，否则，执行S2053:。

S2052：将目标维度对应的属性为基本信息。

S2053：根据指标数据，采用第一预设筛选条件，对目标维度的各属性进行筛选，获得筛选出的属性，并基于未被筛选出的属性，执行S2054，以及基于被筛选出的属性，执行S2055。

S2054：将未被筛选出的属性，确定为受影响属性。

S2055：获得采用第一预设筛选条件筛选出的属性。

S2056：根据指标数据，采用第二预设筛选条件，对目标维度的各属性进行筛选，获得筛选出的属性，并基于未被筛选出的属性，执行S2057，以及基于被筛选出的属性，执行S2058。

S2057：将未被筛选出的属性，确定为受影响属性。

S2058：将采用第二预设筛选条件筛选出的属性，与采用第一预设筛选条件获得的属性两者之间的交集，确定为故障根因。

需要说明的是，本申请实施例中，仅以针对一个目标维度确定系统的故障根因为例进行说明，同理，可以针对其它各目标维度确定系统的故障根因，进而可以根据确定出的故障根因，对系统进行修复。

例如，参阅图3f所示，为一种属性划分展示页面示例图。图3f中，模块(Module)维度中仅对应一个属性，因此，判定该属性为基本信息。身份验证码(uin)和团簇区(ClusterRegion)均对应多个属性，通过故障根因定位，确定api.mc.chongqing为故障根因，uin对应的各属性为受影响属性。

例如，参阅图3g所示，为一种故障根因汇总示例图。图3g中展示了各目标维度对应的故障根因。一个目标维度对应的故障根因为一个或多个。如，模块对应的故障根因为一个，即云服务器，团簇区对应的故障根因为多个，即api.ap.guangzhou，api.mc.guangzhou，api.ap.shanghai，api.ap.beijing，api.mc.chongqing，图3g中的其它故障根因不再赘述。

步骤206：监控客户端接收服务器返回的故障根因和相应的异常分数值，并在告警分析页面中，显示各故障根因和相应的异常分数值。

具体的，服务器基于告警通知向监控客户端发送各目标维度的故障根因和相应的异常分数值。监控客户端在故障根因显示页面中，显示接收的各故障根因和相应的异常分数值。

进一步地，服务器还可以向监控客户端发送基本信息和/或受影响属性，还可以发送相应的异常分数值。监控客户端在故障根因显示页面中，还可以显示接收的基本信息和/或受影响属性，以及相应的异常分数值。

本申请实施例中，通过监控客户端对指标数据进行监控，并在指标异常时，显示故障根因。监控客户端可以运行于服务器中，也可以运行于终端设备中。

参阅图4所示，为一种故障根因显示的方法的实施流程图，该方法的具体流程如下：

步骤400：基于获取的系统对应的指标时间序列，显示业务监控页面。

步骤401：根据系统对应的指标时间序列，确定指标异常时，在告警分析页面中显示异常指标值和相应的异常时间，并向服务器发送告警通知。

进一步地，服务器或监控客户端还可以对多个监控周期的异常时间段进行汇总，并在告警时间分布页面中，显示汇总的各异常时间段，从而可以从时间尺度上，查看发生异常的时间分布。

参阅图5a所示，为一种告警时间分布页面的示例图。图5a中，纵坐标为日期，横坐标为时间(小时)，告警时间分布页面中曲线表示发生告警的日期和时间(小时)，曲线越长，表示指标告警时间段越长。如，02.28号1:46发生了告警，告警时长为4分钟，又如，在02.28-04.06号期间，有6次告警发生在1:00-2:00时间段内，这样，可以向运营人员反馈告警时间分布信息。使得运营人员进一步分析告警是否有规律的发生，从而可以从根本上减少告警的发生。

步骤402：当接收到服务器基于告警通知返回的各目标维度的故障根因和相应的异常分数值时，在故障根因显示页面中，显示各目标维度的故障根因和相应的异常分数值。

参阅图5b所示，为一种故障根因显示页面的示例图。包括告警分析信息和故障根因信息。告警分析信息通过加粗曲线的方式标识出了异常成功率曲线部分，故障根因信息包括故障根因和相应的异常分数值。

传统方式中主要采用人工定位或模型定位的方式确定故障根因，如，时间序列模型定位和机器学习模型定位。但是，人工定位时的效率较低，通常大于10分钟，而本申请实施例中，故障根因定位效率较高，可以秒级定位；再者，模型定位通常需要耗费大量的样本数据进行模型训练，且模型定位的效率较低，而本申请实施例中，采用数据统计的方式进行故障根因定位，简单高效，且将异常指标数据和正常指标数据结合后进行故障分析，定位效率且准确度均较高。进一步地，本申请实施例中，可以将每个维度的可疑属性，划分为基本信息、受影响属性和故障根因三类，并展示给用户，可以更加针对性的展示异常详情。最后，还可以将一段时间内的告警信息汇总以及故障根因的汇总，从而可以展示告警的时间轴分布和故障根因集合，为用户的隐患排查和减少异常告警的发生，提供便利。

基于同一发明构思，本申请实施例中还提供了一种故障根因定位的装置，由于上述装置及设备解决问题的原理与一种故障根因定位的方法相似，因此，上述装置的实施可以参见方法的实施，重复之处不再赘述。

如图6a示，其为本申请实施例提供的一种故障根因定位的装置的结构示意图。一种故障根因定位的装置包括：

获取单元611，用于当接收到告警通知时，分别获取目标维度对应的各个属性中，每个属性对应的指标时间序列，指标时间序列包括按照时间顺序排列的多个指标值，目标维度至少对应两个属性；

筛选单元612，用于分别从每一属性对应的指标时间序列中，筛选出相应属性的正常指标值和异常指标值；

第一确定单元613，用于根据各属性的正常指标值和异常指标值，分别确定每一属性的异常分数值；

第二确定单元614，用于根据各属性对应的异常分数值，确定各属性中的故障根因。

较佳的，第一确定单元613用于：

分别确定每一属性对应的多个异常指标值的第一平均值；

分别确定每一属性对应的多个正常指标值的第二平均值；

分别确定各属性对应的多个异常指标值的第一总平均值；

分别确定各属性对应的多个正常指标值的第二总平均值；

较佳的，第二确定单元614用于：

将各属性的异常分数值，按照由高到低的顺序进行排序；

较佳的，第二确定单元614用于：

将各属性的异常分数值，按照由高到低的顺序进行排序；

较佳的，第二确定单元614还用于：

将各属性的故障根因之外的属性，确定为受影响属性。

较佳的，第二确定单元614还用于：

如图6b示，其为本申请实施例提供的一种故障根因显示的装置的结构示意图。一种故障根因定位的装置包括：

监控单元621，用于基于获取的系统对应的指标时间序列，显示业务监控页面；

告警单元622，用于根据系统对应的指标时间序列，确定指标异常时，在告警分析页面中显示异常指标值和相应的异常时间，并向服务器发送告警通知；

定位单元623，用于当接收到服务器基于告警通知返回的各目标维度的故障根因和相应的异常分数值时，在故障根因显示页面中，显示各目标维度的故障根因和相应的异常分数值。

图7示出了一种控制设备7000的结构示意图。参阅图7所示，控制设备7000包括：处理器7010、存储器7020、电源7030、显示单元7040、输入单元7050。

处理器7010是控制设备7000的控制中心，利用各种接口和线路连接各个部件，通过运行或执行存储在存储器7020内的软件程序和/或数据，执行控制设备7000的各种功能，从而对控制设备7000进行整体监控。

本申请实施例中，处理器7010调用存储器7020中存储的计算机程序时执行如图2中所示的实施例提供的故障根因定位的方法或图4中所示的实施例提供的故障根因显示的方法。

可选的，处理器7010可包括一个或多个处理单元；优选的，处理器7010可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器7010中。在一些实施例中，处理器、存储器、可以在单一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

存储器7020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、各种应用等；存储数据区可存储根据控制设备7000的使用所创建的数据等。此外，存储器7020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。

控制设备7000还包括给各个部件供电的电源7030(比如电池)，电源可以通过电源管理系统与处理器7010逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗等功能。

显示单元7040可用于显示由用户输入的信息或提供给用户的信息以及控制设备7000的各种菜单等，本发明实施例中主要用于显示控制设备7000中各应用的显示界面以及显示界面中显示的文本、图片等对象。显示单元7040可以包括显示面板7041。显示面板7041可以采用液晶显示屏(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置。

输入单元7050可用于接收用户输入的数字或字符等信息。输入单元7050可包括触控面板7051以及其他输入设备7052。其中，触控面板7051，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触摸笔等任何适合的物体或附件在触控面板7051上或在触控面板7051附近的操作)。

具体的，触控面板7051可以检测用户的触摸操作，并检测触摸操作带来的信号，将这些信号转换成触点坐标，发送给处理器7010，并接收处理器7010发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板7051。其他输入设备7052可以包括但不限于物理键盘、功能键(比如音量控制按键、开关机按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

当然，触控面板7051可覆盖显示面板7041，当触控面板7051检测到在其上或附近的触摸操作后，传送给处理器7010以确定触摸事件的类型，随后处理器7010根据触摸事件的类型在显示面板7041上提供相应的视觉输出。虽然在图7中，触控面板7051与显示面板7041是作为两个独立的部件来实现控制设备7000的输入和输出功能，但是在某些实施例中，可以将触控面板7051与显示面板7041集成而实现控制设备7000的输入和输出功能。

控制设备7000还可包括一个或多个传感器，例如压力传感器、重力加速度传感器、接近光传感器等。当然，根据具体应用中的需要，上述控制设备7000还可以包括摄像头等其它部件，由于这些部件不是本申请实施例中重点使用的部件，因此，在图7中没有示出，且不再详述。

本领域技术人员可以理解，图7仅仅是控制设备的举例，并不构成对控制设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任意方法实施例中的故障根因定位或故障根因显示的方法。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任意方法实施例中的故障根因定位或故障根因显示的控制方法。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台控制设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种故障根因定位的方法，其特征在于，包括：

当接收到告警通知时，分别获取目标维度对应的各个属性中，每个属性对应的指标时间序列，所述指标时间序列包括按照时间顺序排列的多个指标值，所述目标维度至少对应两个属性；

根据各属性对应的异常分数值，确定各属性中的故障根因。

2.如权利要求1所述的方法，其特征在于，根据各属性的正常指标值和异常指标值，分别确定每一属性的异常分数值，包括：

分别确定每一属性对应的多个异常指标值的第一平均值；

分别确定每一属性对应的多个正常指标值的第二平均值；

分别确定各属性对应的多个异常指标值的第一总平均值；

分别确定各属性对应的多个正常指标值的第二总平均值；

分别根据每一属性对应的第一平均值和第二平均值，以及所述第一总评均值和所述第二总平均值，确定相应属性的异常分数值；

其中，所述异常分数值与所述第一平均值和所述第二总平均值均呈正相关，且与所述第二平均值和所述第一总评均值均呈负相关。

3.如权利要求1所述的方法，其特征在于，根据各属性对应的异常分数值，确定各属性中的故障根因，包括：

分别按照第一预设筛选条件和第二预设筛选条件，对各属性进行筛选，并将根据所述第一预设筛选条件和所述第二预设筛选条件筛选出的共同的属性，确定为故障根因。

4.如权利要求3所述的方法，其特征在于，按照第一预设筛选条件，对各属性进行筛选，包括：

将各属性的异常分数值，按照由高到低的顺序进行排序；

5.如权利要求3所述的方法，其特征在于，按照第二预设筛选条件，对各属性进行筛选，包括：

将各属性的异常分数值，按照由高到低的顺序进行排序；

6.如权利要求3-5任一项所述的方法，其特征在于，进一步包括：

将各属性的故障根因之外的属性，确定为受影响属性。

7.如权利要求4或5所述的方法，其特征在于，在将各属性的异常分数值，按照由高到低的顺序进行排序之前，进一步包括：

8.一种故障根因显示的方法，其特征在于，采用如权利要求1-7任一项所述的方法获得的故障根因，包括：

基于获取的系统对应的指标时间序列，显示业务监控页面；

根据所述系统对应的指标时间序列，确定指标异常时，在告警分析页面中显示异常指标值和相应的异常时间，并向服务器发送告警通知；

当接收到所述服务器基于所述告警通知返回的各目标维度的故障根因和相应的异常分数值时，在故障根因显示页面中，显示各目标维度的故障根因和相应的异常分数值。

9.一种故障根因定位的装置，其特征在于，包括：

获取单元，用于当接收到告警通知时，分别获取目标维度对应的各个属性中，每个属性对应的指标时间序列，所述指标时间序列包括按照时间顺序排列的多个指标值，所述目标维度至少对应两个属性；

10.一种故障根因显示的装置，其特征在于，采用如权利要求1-7任一项所述的方法获得的故障根因，包括：

告警单元，用于根据所述系统对应的指标时间序列，确定指标异常时，在告警分析页面中显示异常指标值和相应的异常时间，并向服务器发送告警通知；

定位单元，用于当接收到所述服务器基于所述告警通知返回的各目标维度的故障根因和相应的异常分数值时，在故障根因显示页面中，显示各目标维度的故障根因和相应的异常分数值。