CN115168089A

CN115168089A - 故障处理方法及装置、电子设备和计算机可读存储介质

Info

Publication number: CN115168089A
Application number: CN202210807592.2A
Authority: CN
Inventors: 刘东阳
Original assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Current assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Priority date: 2022-07-08
Filing date: 2022-07-08
Publication date: 2022-10-11

Abstract

本公开提供了一种故障处理方法及装置、电子设备和计算机可读存储介质，可以应用于计算机运维技术领域，也可用于金融技术领域。该故障处理方法包括：从数据库中获取多台待测服务器的交易量数据，其中交易量数据用于表征待测服务器，在预定时间段内每一单位时间间隔的交易笔数；根据多台待测服务器的交易量数据，从多台待测服务器中确定疑似故障集群；根据疑似故障集群中的第一服务器的交易量数据、和多台待测服务器中的第二服务器的交易量数据，从疑似故障集群确定故障服务器，其中第二服务器为：多台待测服务器中，除疑似故障集群的服务器之外的其余服务器；将故障服务器的信息发送至运维系统，以便运维系统根据故障服务器的信息进行故障处理。

Description

故障处理方法及装置、电子设备和计算机可读存储介质

技术领域

本公开涉及计算机运维技术领域，具体地涉及一种故障处理方法、装置、设备、介质和程序产品。

背景技术

在服务器运维中，假集群(指该集群内的一台或小部分服务器相对于集群内的其他服务器多部署某些服务或者少部署某些交易)经常是导致故障发生的原因，因此，往往需要确定假集群并排查假集群内的异常服务器以实现故障定位。

目前，运维人员应对假集群问题是比较被动的，通常是故障发生以后判断假集群可能是导致该类问题发生的原因，然后去排查假集群是否存在，执行排查通常通过人工排查的方式，例如通过依次确定每台服务器部署交易情况，筛选出缺失交易或者多部署交易的服务器，并以为依据判断假集群现象是否发生。不仅需要消耗大量的人力，运维效率低下，而且不能实现对故障的提前预知，事后排查往往会给业务造成不必要的损失。

发明内容

鉴于上述问题，本公开提供了一种故障处理方法、装置、设备、介质和程序产品。

本公开的一个方面，提供了一种故障处理方法，包括：

从数据库中获取多台待测服务器的交易量数据，其中交易量数据用于表征待测服务器，在预定时间段内每一单位时间间隔的交易笔数；

根据多台待测服务器的交易量数据，从多台待测服务器中确定疑似故障集群；

根据疑似故障集群中的第一服务器的交易量数据、和多台待测服务器中的第二服务器的交易量数据，从疑似故障集群中确定故障服务器，其中第二服务器为：多台待测服务器中，除疑似故障集群的服务器之外的其余服务器。

将故障服务器的信息发送至运维系统，以便运维系统根据故障服务器的信息进行故障处理。

根据本公开的实施例，其中，根据疑似故障集群中的第一服务器的交易量数据、和多台待测服务器中的第二服务器的交易量数据，从疑似故障集群确定故障服务器包括：

根据疑似故障集群中的第一服务器的交易量数据、和多台待测服务器中的第二服务器的交易量数据，确定各个第一服务器的统计特征异常值，统计特征异常值用于表征交易量数据在交易数量维度的异常程度；

根据疑似故障集群中的第一服务器的交易量数据，确定各个第一服务器的时间特征异常值，时间特征异常值用于表征交易量数据在交易时间维度的异常程度；

根据各个统计特征异常值、各个时间特征异常值，确定各个第一服务器的综合异常值；

将综合异常值大于等于预设阈值的第一服务器，确定为故障服务器。

根据本公开的实施例，其中，根据疑似故障集群中的第一服务器的交易量数据、和多台待测服务器中的第二服务器的交易量数据，确定各个第一服务器的统计特征异常值包括：

根据疑似故障集群中的第一服务器的交易量数据、和多台待测服务器中的第二服务器的交易量数据，计算得到各个第一服务器的第一比较值，其中第一比较值用于表征各个第一服务器的交易量数据，偏离第二服务器的交易量数据的程度；

根据第一比较值和第一预设判别条件，确定各个第一服务器的统计特征异常值。

根据本公开的实施例，其中，根据疑似故障集群中的第一服务器的交易量数据、和多台待测服务器中的第二服务器的交易量数据，计算得到各个第一服务器的第一比较值包括：

根据多台待测服务器中的第二服务器的交易量数据，计算得到参考交易量数据；

根据疑似故障集群中的第一服务器的交易量数据、参考交易量数据，分别计算得到各个第一服务器的交易量剥离数据；

根据参考交易量数据、各个第一服务器的交易量剥离数据，计算得到各个第一服务器的第一比较值。

根据本公开的实施例，其中，根据多台待测服务器中的第二服务器的交易量数据，计算得到参考交易量数据包括：

将多台第二服务器的交易量数据等权加和，计算得到参考交易量数据。

根据本公开的实施例，其中，根据疑似故障集群中的第一服务器的交易量数据、参考交易量数据，分别计算得到各个第一服务器的交易量剥离数据包括：

分别计算各个第一服务器的交易量数据和参考交易量数据的差值，以得到各个第一服务器的交易量剥离数据。

根据本公开的实施例，其中，根据疑似故障集群中的第一服务器的交易量数据，确定各个第一服务器的时间特征异常值包括：

根据疑似故障集群中的第一服务器的交易量数据，计算得到各个第一服务器的第二比较值，其中第二比较值为各个第一服务器中，交易量数据中的异常数据点的个数，与交易量数据中的数据点的总数的比值；

根据第二比较值和第二预设判别条件，确定各个第一服务器的时间特征异常值。

根据本公开的实施例，其中，根据多台待测服务器的交易量数据，从多台待测服务器中确定疑似故障集群包括：

对多台待测服务器的交易量数据进行聚类处理，以得到多个数据类簇，其中每个数据类簇关联一个服务集群，数据类簇中的样本数量用于表征，与数据类簇关联的服务集群中的服务器台数；

将与目标数据类簇关联的服务集群，确定为疑似故障集群，其中，在目标数据类簇中，用于表征服务器台数的样本数量满足预设数量数值范围。

根据本公开的实施例，其中，对多台待测服务器的交易量数据进行聚类处理，以得到多个数据类簇包括：

计算得到每两台待测服务器的交易量数据之间的欧氏距离；

将欧氏距离进行空间变换，以得到每两台待测服务器的交易量数据之间的互达距离；

根据互达距离，对多台待测服务器的交易量数据进行密度聚类处理，以得到多个数据类簇。

本公开的另一个方面提供了一种故障处理装置，包括获取模块、第一确定模块、第二确定模块和发送模块。

其中，获取模块，用于从数据库中获取多台待测服务器的交易量数据，其中交易量数据用于表征待测服务器，在预定时间段内每一单位时间间隔的交易笔数；

第一确定模块，用于根据多台待测服务器的交易量数据，从多台待测服务器中确定疑似故障集群；

第二确定模块，用于根据疑似故障集群中的第一服务器的交易量数据、和多台待测服务器中的第二服务器的交易量数据，从疑似故障集群确定故障服务器，其中第二服务器为：多台待测服务器中，除疑似故障集群的服务器之外的其余服务器。

发送模块，用于将故障服务器的信息发送至运维系统，以便运维系统根据故障服务器的信息进行故障处理。

根据本公开的实施例，其中，第二确定模块包括第一确定单元、第二确定单元、第三确定单元和第四确定单元。

其中，第一确定单元，用于根据疑似故障集群中的第一服务器的交易量数据、和多台待测服务器中的第二服务器的交易量数据，确定各个第一服务器的统计特征异常值，统计特征异常值用于表征交易量数据在交易数量维度的异常程度。

第二确定单元，用于根据疑似故障集群中的第一服务器的交易量数据，确定各个第一服务器的时间特征异常值，时间特征异常值用于表征交易量数据在交易时间维度的异常程度。

第三确定单元，用于根据各个统计特征异常值、各个时间特征异常值，确定各个第一服务器的综合异常值。

第四确定单元，用于将综合异常值大于等于预设阈值的第一服务器，确定为故障服务器。

根据本公开的实施例，其中，第一确定单元包括第一计算子单元和第一确定子单元。

其中，第一计算子单元，用于根据疑似故障集群中的第一服务器的交易量数据、和多台待测服务器中的第二服务器的交易量数据，计算得到各个第一服务器的第一比较值，其中第一比较值用于表征各个第一服务器的交易量数据，偏离第二服务器的交易量数据的程度。

第一确定子单元，用于根据第一比较值和第一预设判别条件，确定各个第一服务器的统计特征异常值。

根据本公开的实施例，其中，第一计算子单元包括第一计算组件、第二计算组件、第三计算组件。

其中，第一计算组件，用于根据多台待测服务器中的第二服务器的交易量数据，计算得到参考交易量数据。

第二计算组件，用于根据疑似故障集群中的第一服务器的交易量数据、参考交易量数据，分别计算得到各个第一服务器的交易量剥离数据。

第三计算组件，用于根据参考交易量数据、各个第一服务器的交易量剥离数据，计算得到各个第一服务器的第一比较值。

根据本公开的实施例，其中，第一计算组件中，根据多台待测服务器中的第二服务器的交易量数据，计算得到参考交易量数据包括：将多台第二服务器的交易量数据等权加和，计算得到参考交易量数据。

根据本公开的实施例，其中，第二计算组件中，根据疑似故障集群中的第一服务器的交易量数据、参考交易量数据，分别计算得到各个第一服务器的交易量剥离数据包括：分别计算各个第一服务器的交易量数据和参考交易量数据的差值，以得到各个第一服务器的交易量剥离数据。

根据本公开的实施例，其中，第二确定单元包括第二计算子单元、第二确定子单元。

其中，第二计算子单元，用于根据疑似故障集群中的第一服务器的交易量数据，计算得到各个第一服务器的第二比较值，其中第二比较值为各个第一服务器中，交易量数据中的异常数据点的个数，与交易量数据中的数据点的总数的比值。

第二确定子单元，用于根据第二比较值和第二预设判别条件，确定各个第一服务器的时间特征异常值。

根据本公开的实施例，其中，第一确定模块包括聚类单元、第五确定单元。

其中，聚类单元，用于对多台待测服务器的交易量数据进行聚类处理，以得到多个数据类簇，其中每个数据类簇关联一个服务集群，数据类簇中的样本数量用于表征，与数据类簇关联的服务集群中的服务器台数。

第五确定单元，用于将与目标数据类簇关联的服务集群，确定为疑似故障集群，其中，在目标数据类簇中，用于表征服务器台数的样本数量满足预设数量数值范围。

根据本公开的实施例，其中，聚类单元包括第三计算子单元、变换子单元、处理子单元。

其中，第三计算子单元，用于计算得到每两台待测服务器的交易量数据之间的欧氏距离。

变换子单元，用于将欧氏距离进行空间变换，以得到每两台待测服务器的交易量数据之间的互达距离。

处理子单元，用于根据互达距离，对多台待测服务器的交易量数据进行密度聚类处理，以得到多个数据类簇。

本公开的另一个方面提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得一个或多个处理器执行上述故障处理方法。

本公开的另一个方面还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行上述故障处理方法。

本公开的另一个方面还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述故障处理方法。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述内容以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的故障处理方法、装置、设备、介质和程序产品的系统架构图；

图2示意性示出了根据本公开一实施例的故障处理方法的流程图；

图3示意性示出了根据本公开实施例的对多台待测服务器的交易量数据进行聚类处理的流程图；

图4示意性示出了根据本公开另一实施例的故障处理方法的流程图；

图5示意性示出了根据本公开实施例的故障处理装置的结构框图；以及

图6示意性示出了根据本公开实施例的适于实现故障处理方法的电子设备的方框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

相关技术中，运维人员应对假集群问题是比较被动的，通常是故障发生以后判断假集群可能是导致该类问题发生的原因，然后去排查假集群是否存在，执行排查通常通过人工排查的方式，例如查询集群部署在哪些服务器，获取属于该集群的服务器列表，运维人员协同开发人员依次确定每台服务器部署交易情况，筛选出缺失交易或者多部署交易的服务器，以为依据判断假集群现象是否发生。

相关技术中的假集群检测方法具有被动性，一般是运维故障发生后，在排查问题的过程中认为可能是假集群造成此类问题时才会去排查，不能主动预防问题的发生，容易造成生产事故，具有一定的安全隐患。

相关技术中的假集群检测方法通常需要开发人员配合运维人员依次排查集群内服务器的服务部署情况，耗费大量人力物力。另外，服务部署情况存在登记错误，甚至没有登记信息的情况，进一步增加了假集群检测的难度。

可见，相关技术中的假集群检测方法不仅需要消耗大量的人力，运维效率低下，而且不能实现对故障的提前预知，事后排查往往会给业务造成不必要的损失。

有鉴于此，本公开的实施例提供了一种故障处理方法。包括：

从数据库中获取多台待测服务器的交易量数据，其中交易量数据用于表征待测服务器，在预定时间段内每一单位时间间隔的交易笔数；其中，多台待测服务器属于同一业务集群，部署同样的服务。

在本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

图1示意性示出了根据本公开实施例的故障处理方法、装置、设备、介质和程序产品的系统架构图。

如图1所示，根据该实施例的系统架构100可以包括待测服务器集群101、数据处理系统102、故障处置系统103。待测服务器集群101、数据处理系统102、故障处置系统103之间可通过网络进行通信，网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

在本公开实施例的应用场景下，待测服务器集群101可以是企业内部用于对外提供业务的业务服务器，用于响应于用户请求，对外提供各种类型的业务服务，待测服务器集群101可以包括一台或多台业务服务器，也可以是一个或多个业务服务集群。

待测服务器集群101中的服务器可以是提供各种服务的服务器，例如对用户利用终端设备所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。用户可以使用终端设备通过网络与服务器交互，以接收或发送消息等。

数据处理系统102用于采集到待测服务器集群101中的各个设备的指标数据(例如可以是交易量数据)，并结合预设算法，对各个设备的指标数据进行数据处理，例如对待测服务器的交易量数据进行数据处理和分析确定疑似故障集群和故障服务器，并将故障服务器的信息发送至故障处置系统103。

故障处置系统103，用于根据故障服务器的信息对存在故障的设备进行故障应急处理，例如将用户请求由故障服务器转发至正常运行的业务服务器等等。

以下将基于图1描述的场景，通过图2～图6对公开实施例的故障处理方法进行详细描述。

图2示意性示出了根据本公开一实施例的故障处理方法的流程图。

如图2所示，该实施例的故障处理方法包括操作S201～操作S204。

在操作S201，从数据库中获取多台待测服务器的交易量数据，其中，多台待测服务器属于同一业务集群，部署同样的服务。其中交易量数据用于表征待测服务器，在预定时间段内每一单位时间间隔的交易笔数。每台待测服务器的交易量数据为时间向量序列，例如，其中一台服务器的交易量数据为在某一天14点至15点之间，每五分钟的交易笔数：{20，50，10，15……}。

在操作S202，根据多台待测服务器的交易量数据，从多台待测服务器中确定疑似故障集群。

在操作S203，根据疑似故障集群中的第一服务器的交易量数据、和多台待测服务器中的第二服务器的交易量数据，从疑似故障集群确定故障服务器，其中第二服务器为：多台待测服务器中，除疑似故障集群的服务器之外的其余服务器。

在操作S204，将故障服务器的信息发送至运维系统，以便运维系统根据故障服务器的信息进行故障处理。

根据本公开的实施例，多台待测服务器为企业内部用于对外提供业务的业务服务器，用于响应于用户请求，对外提供各种类型的业务服务，待测服务器可以包括一台或多台业务服务器，也可以是一个或多个业务服务集群。

同一业务集群，用于在几个服务器上部署相同的应用程序来分担客户端的请求，指同一个系统部署在不同的服务器上，例如一个登陆系统部署在不同的服务器上。集群的设立主要用于分担请求的压力，一般认为集群内的服务器部署的服务相同。

假集群，指集群内的一台或小部分服务器相对于集群内的其他服务器多部署某些服务或者少部署某些交易的情况下，因一般情况下，同一业务集群内的服务器部署的服务相同，所以该集群可认为是假集群。本公开实施例的故障处理方法主要用于识别某一业务集群是不是假集群，并定位假集群中的故障服务器。

根据本公开的实施例，区别于传统人工逐一排查定位故障服务器的方法，本公开实施例的故障处理方法主要通过对待测服务器的交易量数据进行处理分析来定位故障服务器。

根据本公开的实施例，上述方法将假集群检测过程分为两个阶段：疑似故障集群确定阶段、以及疑似故障集群内故障机器定位阶段。

在第一阶段，在操作S202，根据多台待测服务器的交易量数据，从多台待测服务器中确定疑似故障集群。例如可以是对多台待测服务器的交易量数据进行聚类处理，根据交易量数据之间的分布相似性，将多台待测服务器聚类为多个类簇集群，并根据预设的判断条件从多个类簇集群中确定疑似故障集群，即疑似假集群。

在第二阶段，在操作S203，根据疑似故障集群中的第一服务器的交易量数据、和多台待测服务器中的第二服务器的交易量数据，从疑似故障集群确定故障服务器。因第二服务器为多台待测服务器中，除疑似故障集群的服务器之外的其余服务器，可以认为第二服务器为正常服务器，初步排除其是故障服务器的可能。具体地，例如可以是基于疑似故障集群中的服务器的交易量数据、和正常服务器的交易量数据，计算疑似故障集群中每台服务器和正常服务器在交易量上差异的程度，根据差异程度的大小确定其是否属于故障服务器。

根据本公开的实施例，上述故障处理方法区别于传统人工逐一排查定位故障服务器的方法，通过对待测服务器的交易量数据进行处理分析来定位故障服务器，通过数据处理系统自动获取待测服务器的交易量数据、通过对数分析后得出故障定位结果，并将将故障服务器的信息发送至运维系统，以便运维系统根据故障服务器的信息对存在故障的设备进行故障应急处理，例如将用户请求由故障服务器转发至正常运行的业务服务器等等。

根据本公开的实施例，上述故障处理方法数据处理方法实现了故障服务器的自动化定位、智能化检测，解决了相关技术中的假集群检测方法需要消耗大量的人力，排查耗时久、运维效率低下的问题。并且，区别于相关技术中事后故障排查的方法，上述方法可以做到事前故障提前预测，主动发现问题，避免了事后排查往往给业务造成的不必要的损失，为预防运维故障的发生提供了技术支持。

根据本公开的实施例，上述故障处理方法将假集群检测过程分为两个阶段，通过处理多台待测服务器的交易量数据，根据不同待测服务器的交易量数据的特点，从多台待测服务器中确定疑似故障集群，进一步地通过比较疑似故障集群中服务器和正常服务器在交易量上差异的程度，来定位故障服务器，上述方法通过逐步缩小故障范围，最终定位故障机器，逐步达成假集群检测目的，在保证高效定位的基础上提高了故障预测的准确性。同时，上述方法基于不同服务器业务数据之间的关联性，实现了假集群的检测目的，检测结果的得出符合自然规律，具有较强的参考性。

根据本公开的实施例，进一步地，上述方法中，根据多台待测服务器的交易量数据，从多台待测服务器中确定疑似故障集群可以是对多台待测服务器的交易量数据进行聚类处理，根据交易量数据之间的分布相似性，将多台待测服务器聚类为多个类簇集群，并根据预设的判断条件从多个类簇集群中确定疑似故障集群。

具体地，首先，对多台待测服务器的交易量数据进行聚类处理，以得到多个数据类簇，其中每个数据类簇关联一个服务集群，数据类簇中的样本数量用于表征与数据类簇关联的服务集群中的服务器台数，即通过聚类将多台待测服务器聚类为多个类簇集群。其中，进行聚类处理可以是采用聚类算法实现，例如可以是利用DBSCAN (Density BasedSpatial Clustering of Application with Noise)算法进行密度聚类，也可以是采用其他聚类算法，例如OPTICS(Ordering pointsto identify the clustering structure)算法等。

然后，将与目标数据类簇关联的服务集群，确定为疑似故障集群，其中，在目标数据类簇中，用于表征服务器台数的样本数量满足预设数量数值范围。即，根据预设的数量判断条件从多个类簇集群中确定疑似故障集群，例如可以是基于聚类结果对各簇进行筛选，若单簇样本数大于等于1且小于等于预设定的最大异常样本数，认为该簇疑似存在离群服务器，否则为正常服务集群。

根据本公开的实施例，通过对多台待测服务器的交易量数据进行聚类处理，可基于同一业务集群中的交易数据呈现一定聚集性的特定，将多台待测服务器聚类为多个类簇集群，并在此基础上确定疑似故障集群，得出的结果符合自然规律，具有较强的参考性。

根据本公开的实施例，进一步地，对多台待测服务器的交易量数据进行聚类处理，以得到多个数据类簇包括如下操作。

首先，计算得到每两台待测服务器的交易量数据之间的欧氏距离dist(a，b)，计算方法如下式(1)：

其中，a_i、b_i分别表示多台待测服务器中任意两台服务器的交易量时间向量序列(预定时间段内每一单位时间间隔的交易笔数)。

之后，将上述操作计算得到的欧氏距离进行空间变换，以得到每两台待测服务器的交易量数据之间的互达距离d_mreach-k(a，b)，参见下式(2)。

d_mreach-k(a，b)＝max(core_k(a)，core_k(b)，d(a，b)) 式(2)

其中d(a，b)是样本a和样本b之间的原始距离，可采用上一步操作计算得到的欧式距离。core_k(a)、core_k(b)表示样本a、样本b与第k个最近邻样本点的核心距离。计算方式参见下式(3)。

core_k(x)＝d(x，N^k(x)) 式(3)

根据本公开的实施例，通过将欧氏距离进行空间变换，得到每两台待测服务器的交易量数据之间的互达距离，利用互达距离表示两个样本间的距离，通过降维的方式来拉开点之间的距离，密集点(具有低核心距离)之间的距离不受影响，但稀疏的点与其他点的距离被拉远，如此，一方面可提高聚类计算的速度，另一方面可增加聚类算法对散点的鲁棒性，提高聚类结果的可靠性和稳定性。

最后，根据互达距离，对多台待测服务器的交易量数据进行聚类处理，以得到多个数据类簇。

图3示意性示出了根据本公开实施例的对多台待测服务器的交易量数据进行聚类处理的流程图。

以下，结合图3对本公开实施例的聚类处理的操作进行说明。

如图3所示，在进行上述空间变换操作得到每两台待测服务器的交易量数据之间(即每两个样本数据之间)的互达距离后，基于样本间互达距离对样本进行密度聚类。

首先确定所有的核心点，并将这些核心点进行标记，具体地，对于任意输入的样本a，基于样本间互达距离，扫描样邻域半径eps内的点，若邻域半径eps内的点数大于密度阈值，则认为样本a为核心点，否则不为核心点，以此确定最小单簇样本数。

然后，将样本数据进行归一化处理。

之后，针对每个核心点，基于样本间互达距离，如果其密度直达范围中存在另一个核心点，则将该核心点和可到达的那个核心点以及两者的密度直达范围中的样本点全部归属为一类。否则，第一类完成，开始第二类聚类，以此类推。具体地该操作可包括：

针对所有的样本，判断是否存在未标记点，如果不存在，则输出结果。

如果存在未标记点，则执行以下操作：

操作a：任意挑选一个未标记样本，置为一类，搜索附近样本。

操作b：如果附近样本数大于最小单簇样本数，将这些样本归于该类，在此类中挑选未标记样本，继续搜索附近样本。

重复操作b，直到该类中所有样本都被标记。

重复操作a，直到所有样本都被标记，聚类结束，得到多个数据类簇。

图4示意性示出了根据本公开另一实施例的故障处理方法的流程图。

如图4所示，根据本公开实施例的故障处理方法包括：

对多台待测服务器的交易量数据进行密度聚类，将多台待测服务器聚类为多个类簇集群，并根据预设的数量判断条件从多个类簇集群中确定疑似故障集群，具体地，若单簇样本数大于等于1且小于等于预设定的最大异常样本数，认为该簇为疑似故障集群，否则认为不存在疑似故障集群。

在存在疑似故障集群的情况下，确定疑似故障集群中每台服务器的统计特征异常值和时间特征异常值，具体包括：根据疑似故障集群中的第一服务器的交易量数据、和多台待测服务器中的第二服务器的交易量数据，确定各个第一服务器的统计特征异常值，统计特征异常值用于表征交易量数据在交易数量维度的异常程度。根据疑似故障集群中的第一服务器的交易量数据，确定各个第一服务器的时间特征异常值，时间特征异常值用于表征交易量数据在交易时间维度的异常程度。

其中，根据疑似故障集群中的第一服务器的交易量数据、和多台待测服务器中的第二服务器的交易量数据，确定各个第一服务器的统计特征异常值，例如可以是计算第一服务器的交易量数据和第二服务器的交易量的差异程度(例如做差、求比值等等)，根据差异程度的大小确定统计特征异常值。特征异常值的设计构思在于，若某台服务器在交易总量上与正常服务器存在较大程度的差异，则有理由怀疑其为故障服务器。

其中，根据疑似故障集群中的第一服务器的交易量数据，确定各个第一服务器的时间特征异常值，例如可以是根据第一服务器的交易量数据，计算在预定时间段内存在异常交易的交易时段在整个预定时段的时间占比，并根据异常时段的时间占比的大小确定时间特征异常值，时间特征异常值的设计构思在于，若某台服务器在较长时间段内存在异常交易，即便在交易总量上不存在异常，也有理由怀疑其为故障服务器。

之后，再根据各个统计特征异常值、各个时间特征异常值，确定各个第一服务器的综合异常值，将综合异常值大于等于预设阈值的第一服务器，确定为故障服务器。

具体地，计算第一服务器的综合异常值(综合异常得分)score_ano，可以是将统计特征异常值score_stats和时间特征异常值score_time的加权平均值得到，具体计算方法参见下式(4)：

其中，score_stats为统计特征分数，score_time为时间特征分数，a、b为相应的权重系数。

根据本公开的实施例，统计特征异常值、和时间特征异常值分别从不同的维度(交易数量维度和交易时间维度)反映了疑似故障集群中服务器交易数据的异常程度，通过从上述两个维度对疑似故障集群中服务器交易数据进行处理，考虑了交易场景下可能存在异常交易的多种可能，以此可较为精确、全面地实现故障定位。

根据本公开的实施例，进一步地，确定疑似故障集群中各个第一服务器的统计特征异常值的具体操作可包括：

首先，根据多台待测服务器中的第二服务器的交易量数据，计算得到参考交易量数据(即正常服务器的交易量数据)；具体可以是将多台第二服务器的交易量数据等权加和，计算得到参考交易量数据，得到用于表征所有正常服务器的交易量数据的时间向量序列。

之后，根据疑似故障集群中的第一服务器的交易量数据、参考交易量数据，分别计算得到各个第一服务器的交易量剥离数据；具体可以是，分别计算各个第一服务器的交易量数据和参考交易量数据的差值，以得到各个第一服务器的交易量剥离数据，得到每台第一服务器的交易量剥离数据的时间向量序列。

然后，根据参考交易量数据、各个第一服务器的交易量剥离数据，计算得到各个第一服务器的第一比较值m，其中第一比较值m用于表征各个第一服务器的交易量数据，偏离第二服务器的交易量数据的程度。第一比较值m的计算公式如下式(5)：

其中，m_{剥离服务交易均值}为对当前第一服务器的交易量剥离数据的时间向量序列中的多个序列值加和求平均后得到的常数，用于表征当前第一服务器的剥离交易量的大小。

m_{正常服务交易均值}为对参考交易量数据，即正常服务器的交易量数据的时间向量序列中的多个序列值加和求平均后得到的常数，用于表征正常服务器的交易量的大小。

最后，根据第一比较值和第一预设判别条件，确定各个第一服务器的统计特征异常值score_stats，确定方法参考下式(6)：

其中，p_m、n_s为预设参数，α为预设的权重系数，当第一比较值m小于p_m时，认为当前服务器的统计特征正常，否则异常。n_s为根据运维经验预设的基础异常分数，其中p_m、n_s在设置时，呈现同一变化规律，即p_m值设置较大时，n_s值也相应地设置较大值。

根据本公开的实施例，进一步地，确定疑似故障集群中各个第一服务器的时间特征异常值包括：

首先，根据疑似故障集群中的第一服务器的交易量数据，计算得到各个第一服务器的第二比较值r，其中第二比较值r为各个第一服务器中，交易量数据中的异常数据点的个数，与交易量数据中的数据点的总数的比值，即，在预定时间段内存在异常交易的单位时间间隔数量，与预定时间段内单位时间间隔总数的比值，可用于表征预定时间段内存在异常交易的交易时段在整个预定时段的时间占比，若某台服务器在较长时间段内存在异常交易，则有理由怀疑其为故障服务器。第二比较值r的计算参考下式(6)：

其中，异常数据点数，即交易量数据中的异常数据点的个数，可以利用多种异常检测方法得出，例如利用3sigma规则进行异常点检测，异常点检测方法也可以是箱线图法、聚类方法(如BIRCH)、SVM、孤立森林(Isolation Forest)等方法。

之后，根据第二比较值和第二预设判别条件，确定各个第一服务器的时间特征异常值score_time，确定方法参考下式(8)：

其中，p_r、n_t为预设参数，γ为预设的权重系数，当第二比较值r小于p_r时，认为当前服务器的时间特征正常，否则异常。n_t为根据运维验预设的基础异常分数，其中p_r、n_t在设置时，呈现同一变化规律，即p_r值设置较大时，n_t值也相应地设置较大值。

基于上述故障处理方法，本公开还提供了一种故障处理装置。以下将结合图5对该装置进行详细描述。

图5示意性示出了根据本公开实施例的故障处理装置的结构框图。

如图5所示，该实施例的故障处理装置500包括获取模块501、第一确定模块502、第二确定模块503和发送模块504。

其中，获取模块501，用于从数据库中获取多台待测服务器的交易量数据，其中交易量数据用于表征待测服务器，在预定时间段内每一单位时间间隔的交易笔数；

第一确定模块502，用于根据多台待测服务器的交易量数据，从多台待测服务器中确定疑似故障集群；

第二确定模块503，用于根据疑似故障集群中的第一服务器的交易量数据、和多台待测服务器中的第二服务器的交易量数据，从疑似故障集群确定故障服务器，其中第二服务器为：多台待测服务器中，除疑似故障集群的服务器之外的其余服务器。

发送模块504，用于将故障服务器的信息发送至运维系统，以便运维系统根据故障服务器的信息进行故障处理。

根据本公开的实施例，上述故障处理装置中，通过获取模块501，数据处理系统自动获取待测服务器的交易量数据、通过第一确定模块502、第二确定模块503对数分析后得出故障定位结果，并将将故障服务器的信息通过发送模块504发送至运维系统，以便运维系统根据故障服务器的信息对存在故障的设备进行故障应急处理。可见上述故障处理装置实现了故障服务器的自动化定位、智能化检测，解决了相关技术中的假集群检测方法需要消耗大量的人力，排查耗时久、运维效率低下的问题。并且，区别于相关技术中事后故障排查的方法，上述方法可以做到事前故障提前预测，主动发现问题，避免了事后排查往往给业务造成的不必要的损失，为预防运维故障的发生提供了技术支持。

根据本公开的实施例，上述通过第一确定模块502、第二确定模块503对数分析后得出故障定位结果，将假集群检测过程分为两个阶段，通过处理多台待测服务器的交易量数据，通过第一确定模块502根据不同待测服务器的交易量数据的特点，从多台待测服务器中确定疑似故障集群，进一步地通过第二确定模块503比较疑似故障集群中服务器和正常服务器在交易量上差异的程度，来定位故障服务器，通过逐步缩小故障范围，最终定位故障机器，逐步达成假集群检测目的，在保证高效定位的基础上提高了故障预测的准确性。

根据本公开的实施例，其中，第二确定模块503包括第一确定单元、第二确定单元、第三确定单元和第四确定单元。

根据本公开的实施例，其中，第一确定模块502包括聚类单元、第五确定单元。

处理子单元，用于根据互达距离，对多台待测服务器的交易量数据进行聚类处理，以得到多个数据类簇。

根据本公开的实施例，获取模块501、第一确定模块502、第二确定模块503和发送模块504中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，获取模块501、第一确定模块502、第二确定模块503和发送模块504中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，获取模块501、第一确定模块502、第二确定模块503和发送模块504中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

如图6所示，根据本公开实施例的电子设备600包括处理器601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。处理器601例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))等等。处理器601还可以包括用于缓存用途的板载存储器。处理器601可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 603中，存储有电子设备600操作所需的各种程序和数据。处理器601、ROM602以及RAM 603通过总线604彼此相连。处理器601通过执行ROM 602和/或RAM 603中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 602和RAM 603以外的一个或多个存储器中。处理器601也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，电子设备600还可以包括输入/输出(I/O)接口605，输入/输出(I/O)接口605也连接至总线604。电子设备600还可以包括连接至I/O接口605的以下部件中的一项或多项：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访间存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 602和/或RAM 603和/或ROM 602和RAM 603以外的一个或多个存储器。

本公开的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时，该程序代码用于使计算机系统实现本公开实施例所提供的故障处理方法。

在该计算机程序被处理器601执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分609被下载和安装，和/或从可拆卸介质611被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被处理器601执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

根据本公开的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java，C++，python，“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种故障处理方法，包括：

从数据库中获取多台待测服务器的交易量数据，其中所述交易量数据用于表征待测服务器，在预定时间段内每一单位时间间隔的交易笔数；

根据所述多台待测服务器的交易量数据，从所述多台待测服务器中确定疑似故障集群；

根据所述疑似故障集群中的第一服务器的交易量数据、和所述多台待测服务器中的第二服务器的交易量数据，从所述疑似故障集群中确定故障服务器，其中所述第二服务器为：所述多台待测服务器中，除所述疑似故障集群的服务器之外的其余服务器。

将所述故障服务器的信息发送至运维系统，以便所述运维系统根据所述故障服务器的信息进行故障处理。

2.根据权利要求1所述的方法，其中，所述根据所述疑似故障集群中的第一服务器的交易量数据、和所述多台待测服务器中的第二服务器的交易量数据，从所述疑似故障集群中确定故障服务器包括：

根据所述疑似故障集群中的第一服务器的交易量数据、和所述多台待测服务器中的第二服务器的交易量数据，确定各个所述第一服务器的统计特征异常值，所述统计特征异常值用于表征交易量数据在交易数量维度的异常程度；

根据所述疑似故障集群中的第一服务器的交易量数据，确定各个所述第一服务器的时间特征异常值，所述时间特征异常值用于表征交易量数据在交易时间维度的异常程度；

根据各个所述统计特征异常值、各个所述时间特征异常值，确定各个所述第一服务器的综合异常值；

将所述综合异常值大于等于预设阈值的第一服务器，确定为故障服务器。

3.根据权利要求2所述的方法，其中，所述根据所述疑似故障集群中的第一服务器的交易量数据、和所述多台待测服务器中的第二服务器的交易量数据，确定各个所述第一服务器的统计特征异常值包括：

根据所述疑似故障集群中的第一服务器的交易量数据、和所述多台待测服务器中的第二服务器的交易量数据，计算得到各个所述第一服务器的第一比较值，其中所述第一比较值用于表征各个所述第一服务器的交易量数据，偏离所述第二服务器的交易量数据的程度；

根据所述第一比较值和第一预设判别条件，确定各个所述第一服务器的统计特征异常值。

4.根据权利要求3所述的方法，其中，所述根据所述疑似故障集群中的第一服务器的交易量数据、和所述多台待测服务器中的第二服务器的交易量数据，计算得到各个所述第一服务器的第一比较值包括：

根据所述多台待测服务器中的第二服务器的交易量数据，计算得到参考交易量数据；

根据所述疑似故障集群中的第一服务器的交易量数据、所述参考交易量数据，分别计算得到各个所述第一服务器的交易量剥离数据；

根据所述参考交易量数据、各个所述第一服务器的交易量剥离数据，计算得到各个所述第一服务器的第一比较值。

5.根据权利要求4所述的方法，其中，所述根据所述多台待测服务器中的第二服务器的交易量数据，计算得到参考交易量数据包括：

将多台所述第二服务器的交易量数据等权加和，计算得到参考交易量数据。

6.根据权利要求4所述的方法，其中，所述根据所述疑似故障集群中的第一服务器的交易量数据、所述参考交易量数据，分别计算得到各个所述第一服务器的交易量剥离数据包括：

分别计算各个所述第一服务器的交易量数据和所述参考交易量数据的差值，以得到各个所述第一服务器的交易量剥离数据。

7.根据权利要求2所述的方法，其中，所述根据所述疑似故障集群中的第一服务器的交易量数据，确定各个所述第一服务器的时间特征异常值包括：

根据所述疑似故障集群中的第一服务器的交易量数据，计算得到各个所述第一服务器的第二比较值，其中所述第二比较值为各个所述第一服务器中，交易量数据中的异常数据点的个数，与交易量数据中的数据点的总数的比值；

根据所述第二比较值和第二预设判别条件，确定各个所述第一服务器的时间特征异常值。

8.根据权利要求1所述的方法，其中，所述根据所述多台待测服务器的交易量数据，从所述多台待测服务器中确定疑似故障集群包括：

对所述多台待测服务器的交易量数据进行聚类处理，以得到多个数据类簇，其中每个所述数据类簇关联一个服务集群，所述数据类簇中的样本数量用于表征，与所述数据类簇关联的服务集群中的服务器台数；

将与目标数据类簇关联的服务集群，确定为疑似故障集群，其中，在所述目标数据类簇中，用于表征服务器台数的样本数量满足预设数量数值范围。

9.根据权利要求1所述的方法，其中，所述对所述多台待测服务器的交易量数据进行聚类处理，以得到多个数据类簇包括：

计算得到每两台所述待测服务器的交易量数据之间的欧氏距离；

将所述欧氏距离进行空间变换，以得到每两台所述待测服务器的交易量数据之间的互达距离；

根据所述互达距离，对所述多台待测服务器的交易量数据进行密度聚类处理，以得到多个数据类簇。

10.一种故障处理装置，包括：

获取模块，用于从数据库中获取多台待测服务器的交易量数据，其中所述交易量数据用于表征待测服务器，在预定时间段内每一单位时间间隔的交易笔数；

第一确定模块，用于根据所述多台待测服务器的交易量数据，从所述多台待测服务器中确定疑似故障集群；

第二确定模块，用于根据所述疑似故障集群中的第一服务器的交易量数据、和所述多台待测服务器中的第二服务器的交易量数据，从所述疑似故障集群确定故障服务器，其中所述第二服务器为：所述多台待测服务器中，除所述疑似故障集群的服务器之外的其余服务器。

发送模块，用于将所述故障服务器的信息发送至运维系统，以便所述运维系统根据所述故障服务器的信息进行故障处理。

11.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1～9中任一项所述的方法。

12.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行根据权利要求1～9中任一项所述的方法。

13.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现根据权利要求1～9中任一项所述的方法。