CN115883328A

CN115883328A - 大数据集群故障分析方法、装置、设备、介质及产品

Info

Publication number: CN115883328A
Application number: CN202211587433.2A
Authority: CN
Inventors: 周世峰; 陈含; 戴妙荷; 庄达; 尚晶; 江勇; 陈卓; 杨猛; 徐海勇; 刘虹; 陶涛
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Information Technology Co Ltd
Priority date: 2022-12-09
Filing date: 2022-12-09
Publication date: 2023-03-31

Abstract

本申请公开了一种大数据集群故障分析方法、装置、设备、介质及产品，其中，大数据集群故障分析方法包括：获取由多个第一分析模型构成的第一有向无环图；根据第一有向无环图确定多个第一分析模型的第一拓扑顺序；获取多个第一分析模型生成的多个第一分析任务，每个第一分析模型生成一个第一分析任务；根据第一拓扑顺序执行每个第一分析模型生成的第一分析任务，获得每个第一分析任务对应的第一分析结果；根据每个第一分析任务对应的第一分析结果，确定每个第一分析任务对应的分析对象的故障分析结果。根据本申请实施例，能够精准的对故障进行预测与定位，提高故障分析的准确率。

Description

大数据集群故障分析方法、装置、设备、介质及产品

技术领域

本申请属于计算机信息技术领域，尤其涉及一种大数据集群故障分析方法、装置、设备、介质及产品。

背景技术

通常，大数据集群部署在多个服务器节点，每个服务器节点部承担不同的角色。集群包括多种组件，每个组件又包含多个服务，一般分布在不同的主机节点上。物理上的信号分散对大数据集群的运维带来了很大的困难。而且组件和服务间原本存在的非线性的关联又决定了不能单独地通过其中一两个组件服务去分析故障。

现有的对大数据集群进行故障分析时，是单独监控各个大数据组件自带的指标，通过可视化平台集中展示。通常可监控分析的内容是各大数据组件自带的指标状态应用程序接口列表。这种分析模式主要依赖组件自身提供的指标进行分析，并且故障的预测与定位依靠运维人员经验，故障分析的准确率低。

发明内容

本申请实施例提供一种大数据集群故障分析方法、装置、设备、介质及产品，能够提高故障分析的准确率。

第一方面，本申请实施例提供一种大数据集群故障分析方法，该方法包括：

获取由多个第一分析模型构成的第一有向无环图，第一有向无环图中的每个节点对应一个第一分析模型，每个第一分析模型用于对集群中的一个分析对象的指标数据和/或日志数据进行分析；

根据第一有向无环图确定多个第一分析模型的第一拓扑顺序；

获取多个第一分析模型生成的多个第一分析任务，每个第一分析模型生成一个第一分析任务；

根据第一拓扑顺序执行每个第一分析模型生成的第一分析任务，获得每个第一分析任务对应的第一分析结果；

根据每个第一分析任务对应的第一分析结果，确定每个第一分析任务对应的分析对象的故障分析结果。

第二方面，本申请实施例提供了一种大数据集群故障分析装置，装置包括：

第一获取模块，用于获取由多个第一分析模型构成的第一有向无环图，第一有向无环图中的每个节点对应一个第一分析模型，每个第一分析模型用于对集群中的一个分析对象的指标数据和/或日志数据进行分析；

第一确定模块，用于根据第一有向无环图确定多个第一分析模型的第一拓扑顺序；

第二获取模块，用于获取多个第一分析模型生成的多个第一分析任务，每个第一分析模型生成一个第一分析任务；

执行模块，用于根据第一拓扑顺序执行每个第一分析模型生成的第一分析任务，获得每个第一分析任务对应的第一分析结果；

第二确定模块，用于根据每个第一分析任务对应的第一分析结果，确定每个第一分析任务对应的分析对象的故障分析结果。

第三方面，本申请实施例提供了一种电子设备，设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如第一方面所述的方法。

第四方面，本申请实施例提供了一种计算机存储介质，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如第一方面所述的方法。

第五方面，本申请实施例提供了一种计算机程序产品，所述计算机程序产品中的指令由电子设备的处理器执行时，使得所述电子设备执行如第一方面所述的方法。

本申请实施例的大数据集群故障分析方法、装置、设备、介质及产品，通过获取多个第一分析模型构成的第一有向无环图，其中第一有向无环图中的每个节点都对应一个第一分析模型，多个第一分析模型生成多个第一分析任务，第一分析模型用于对集群中的一个分析对象的指标数据和/或日志数据进行分析，将指标数据和日志数据同时获取并存储，避免了数据的多路传输，缩短了数据传输链路，方便将数据统一管理，根据第一有向无环图确定多个第一分析模型的第一拓扑顺序，根据确定的第一拓扑顺序执行多个第一分析任务，可以获得第一分析任务对应的第一分析结果，根据第一分析结果来确定第一分析任务对应的分析对象的故障分析结果，这样，通过多个分析模型以及集群拓扑的组合，可以较为全面的对分析对象状态进行系统的分析，进而精准的对故障进行预测与定位，提高故障分析的效率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一种实施例提供的大数据集群故障分析方法的流程示意图；

图2是本申请一种实施例提供的大数据集群故障分析方法中集群拓扑感知的结构示意图；

图3是本申请一种实施例提供的大数据集群故障分析方法中指标数据与日志数据分析的结构示意图；

图4是本申请一种实施例提供的大数据集群故障分析方法中任务执行调用链的结构示意图；

图5是本申请一种实施例提供的大数据集群故障分析方法中数据传输入库的结构示意图；

图6是本申请一种实施例提供的大数据集群故障分析装置的结构示意图；

图7是本申请一种实施例提供的电子设备的结构示意图。

具体实施方式

下面将详细描述本申请的各个方面的特征和示例性实施例，为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本申请进行进一步详细描述。应理解，此处所描述的具体实施例仅意在解释本申请，而不是限定本申请。对于本领域技术人员来说，本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了解决现有技术问题，本申请实施例提供了一种大数据集群故障分析方法、装置、设备、介质及产品。下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的大数据集群故障分析方法进行详细地说明。

图1是本申请一种实施例提供的大数据集群故障分析方法的流程示意图。如图1所示，本申请实施例提供的大数据集群故障分析方法可以包括步骤S110-S150，其中：

S110、获取由多个第一分析模型构成的第一有向无环图；

S120、根据第一有向无环图确定多个第一分析模型的第一拓扑顺序；

S130、获取多个第一分析模型生成的多个第一分析任务，每个第一分析模型生成一个第一分析任务；

S140、根据第一拓扑顺序执行每个第一分析模型生成的第一分析任务，获得每个第一分析任务对应的第一分析结果；

S150、根据每个第一分析任务对应的第一分析结果，确定每个第一分析任务对应的分析对象的故障分析结果。

由此，通过获取多个第一分析模型构成的第一有向无环图，其中第一有向无环图中的每个节点都对应一个第一分析模型，多个第一分析模型生成多个第一分析任务，第一分析模型用于对集群中的一个分析对象的指标数据和/或日志数据进行分析，将指标数据和日志数据同时获取并存储，避免了数据的多路传输，缩短了数据传输链路，方便将数据统一管理，根据第一有向无环图确定多个第一分析模型的第一拓扑顺序，根据确定的第一拓扑顺序执行多个第一分析任务，可以获得第一分析任务对应的第一分析结果，根据第一分析结果来确定第一分析任务对应的分析对象的故障分析结果，这样，通过多个分析模型以及集群拓扑的组合，可以较为全面的对分析对象状态进行系统的分析，进而精准的对故障进行预测与定位，提高故障分析的效率。

下面介绍上述各个步骤的具体实现方式。

在本申请一种实施例中，在S110中，第一分析模型可以为运行状态类分析模型，第一有向无环图可以表示多个第一分析模型之间的连接关系，第一有向无环图可以预先设置，每个第一分析模型能够对集群中的分析对象进行分析，其中，分析对象为集群拓扑中的一个资源类型，即集群、服务、组件、主机四种之中的其中一种及其具体标识名，每个第一分析模型对应的分析对象不同，按三个部分构建每个第一分析模型包括分析对象、指标判断规则及阈值和日志搜索规则及关键字。

本申请的大数据集群故障分析系统包括数据采集处理模块及方法、数据实时传输入库模块及方法、集群拓扑感知模块及方法、指标与日志分析模块及方法和监控告警及故障分析大屏模块及方法。

示例性地，如图2所示，图2是本申请一种实施例提供的大数据集群故障分析方法中集群拓扑感知的结构示意图。本申请大数据集群故障分析系统提供一个集群拓扑感知模块及方法，平台服务检测器实时收集增加节点、减少节点、增加服务、减少服务、增加组件、减少组件以及服务运行状态变化等信息，以实现实时感知大数据集群节点部署信息与节点服务运行状态的变化。进一步地，数据会保存到配置管理(Configuration ManagementDatabase，CMDB)数据库。

在每个联邦集群或者多集群中，会存在多个节点和管理节点，平台服务检测器扫描大数据多个集群节点，获取节点组件服务的安装部署情况与服务运行状况等，将检测结果放置到特定资源路径，并提供平台服务自动推送装置同步推送检测结果到CMDB库。

平台服务检测器扫描检测点以“集群-组件-服务-主机-地址-服务状态-时间戳”的线性关系将最新的集群服务分布与状态存储到特定资源路径。平台服务自动推送装置截获心跳机制中管理节点与存储节点之间的心跳通信时长，若超过通信时长阀值，则触发告警设备，将告警信息推送给监控告警模块，通知指标与日志分析模块对信号异常的分析对象的指标和日志进行主动故障分析。

通过上述实施例，集群拓扑感知模块避免了传统采集的繁琐部署，无需在每个集群从节点部署客户端，仅需在管理节点进行部署，并且集群拓扑感知模块支持单集群或者联邦集群的组件服务分布与状态的监控，集群拓扑感知模块还可以检测监控项支持适配增加，可更改配置来调节集群监控。

在本申请一种实施例中，在S120中，根据上述中的第一有向无环图可以确定多个第一分析模型的第一拓扑顺序，为了保证故障分析顺序和依赖关系的正确性，第一分析任务的执行顺序将会按照第一分析模型在有向无环图的多个第一拓扑顺序进行。

在本申请一种实施例中，在S130中，如图3所示，图3是本申请一种实施例提供的大数据集群故障分析方法中指标数据与日志数据分析的结构示意图。知识库是由运维专家输入的多个分析模型所组成的多个有向无环图构成，获取多个第一分析模型生成的多个第一分析任务，构造多个第一分析任务，为了提高性能表现，需要并发执行多个第一分析任务，因此在多个第一拓扑顺序的过程中，将会划分多个执行阶段，每一阶段选择所有入度为0的第一分析模型并构造第一分析任务放入队列中，待队列中所有第一分析任务执行完成以后，从临时获取的有向无环图中消除刚执行完成的第一分析模型节点，然后再进行下一轮的任务构造和执行。

在本申请一种实施例中，在S140中，根据第一拓扑顺序执行每个第一分析模型生成的第一分析任务，获得每个第一分析任务对应的第一分析结果，包括如下两个步骤：

第一步：对于每一个第二任务，获取预设时间段内第二模型的第一分析对象的指标数据，第二任务为多个第一分析任务中的任意一个分析任务，第二模型为生成第二任务的模型。

第二步：根据第二模型的指标判断规则和阈值，指标数据进行判断，获得第一子分析结果，第一子分析结果用于指示指标数据的健康程度。

上述中，第一分析模型包括第一分析对象的标识、第一分析对象的指标判断规则及阈值，指标判断规则及阈值的信息包括指标标识名，以及对三种健康程度：正常、风险、异常，存在三种以特定领域语言编写的判断规则及对应阈值的集合。

示例性地，本申请大数据集群故障分析系统提供一个指标与日志分析模块及方法，其特征包括知识库子模块及构建方法与分析机子模块及方法，实现大数据组件运行状态分析及故障快速定位。

获取预设时间段内第二模型的第一分析对象的指标数据，其中时间段可以自定义设置，第二模型为生成第二任务的模型，第二任务为多个第一分析任务中的任意一个分析任务，根据第二模型的指标判断规则及阈值，对第一分析对象的指标数据进行判断，获得第一子分析结果，第一子分析结果可以表示指标数据的健康程度，健康程度可以包括正常、风险、异常，例如，若第一分析对象的组件指标数值大于设置的第一阈值，则第一分析结果显示异常；若第一分析对象的组件指标数值小于设置的第二阈值，则第一分析结果显示正常；若第一分析对象的组件指标数值在设置的第一阈值和第二阈值之间，则第一分析结果显示风险。

在本申请一种实施例中，在S140中，根据第一拓扑顺序执行每个第一分析模型生成的第一分析任务，获得每个第一分析任务对应的第一分析结果，还包括如下三个步骤：

第三步：根据第二模型的第一分析对象的日志搜索规则及搜索关键词，对数据库中预设时间段内存储的日志进行搜索，获得第一日志数据，数据库用于存储分析对象的日志数据；

第四步：对第一日志数据进行判断，获得第二子分析结果，第二子分析结果用于指第一日志数据的健康度；

第五步：将第一子分析结果和第二子分析结果中健康程度较低者作为第二任务对应的第一分析结果。

上述中，第一分析模型还包括第一分析对象的日志搜索规则及搜索关键词，日志搜索规则及关键词包含日志标识名，以及对三种健康程度的搜索规则及关键词，搜索规则为时间窗口大小以及关键词的匹配模式。

示例性地，根据数据库中预设时间段内第二模型的第一分析对象的日志搜索规则及搜索关键词，获得第一日志数据，其中时间段可以自定义设置，第二模型为生成第二任务的模型，第二任务为多个第一分析任务中的任意一个分析任务，数据库用于存储分析对象的日志数据，对第一分析对象的第一日志数据进行判断，获得第二子分析结果，第一子分析结果可以表示第一日志数据的健康程度，健康程度按照正常、风险、异常依次下降，单个分析任务的子分析结果取指标和日志健康度结果中的较低者，每个分析任务会根据其分析模型在有向无环图中的入边所连接的依赖分析模型产生的分析任务健康度结果，综合自身分析任务的健康度结果取其较低者，作为最终分析结果输出到结果库中，将上述中第一子分析结果与第二子分析结果比较，比较出健康程度较低者作为第二任务对应的第一分析结果。

通过上述实施例，为各项日志指标搭建主题模型，便于统一运维管理以及分析，数据实时增量获取，实现秒级传输，保证了数据的及时性。实时数仓响应快，实现秒级响应，大数据量下无延迟，并且分析模型自定义判断规则机阈值，可以灵活适配不同层面的资源实体的分析方法。

在本申请一种实施例中，在S150中，根据每个第一分析任务对应的第一分析结果，确定每个第一分析任务对应的分析对象的故障分析结果，包括如下两个步骤：

第六步：若第一任务对应的第一分析模型在第一有向无环图中没有入边，第一任务对应的分析对象的故障分析结果确定为第一任务对应的第一分析结果，其中，第一任务为多个第一分析任务中的任意一个分析任务；

第七步：若第一任务对应的第一分析模型在第一有向无环图中有入边，则第一任务对应的分析对象的故障分析结果根据第一任务对应的第一分析结果，以及第一模型对应的第一分析任务的第一分析结果确定，其中，第一有向无环图中第一任务对应的第一分析模型的入边为第一模型。

示例性地，多个第一分析模型之间通过有向边按照分析顺序相连接，即一个分析模型A会指向另一个依赖分析模型A分析结果的分析模型B。分析模型共有两种类型，分别为运行状态类与故障定位类，这两种类型的分析模型将会在分析机中以不同的调度方式运行。在同一个有向无环图中，只会存在一种类型的分析模型。

分析机是执行运行状态分析及故障定位动作的程序，将会根据第三方面集群拓扑感知信息以及知识库中的分析模型，进行大数据组件运行分析及故障快速定位。在初始化时首先会加载集群拓扑感知模块中的集群、服务、组件、主机关系，在分析机内存中将这些实体关系进行实例化，作为分析对象。完成初始化后分析机将会分化出两个工作模式的子分析机：时钟驱动子分析机与事件驱动子分析机。

在时钟驱动模式下的子分析机，用于实现分析和输出大数据组件的运行状态功能，将会定时按照实例化的集群拓扑，从知识库中获取具有相关分析对象的运行状态类分析模型及其所在的有向无环图，构造出每个集群独立的分析任务执行队列，然后并行执行多个执行队列的分析任务。

每个集群的上述执行队列中，每个分析模型会生成一个分析任务，分析机为分析模型的分析对象注入集群的实际属性，确定分析模型具体的分析对象是哪个，并以此作为指标数据和日志数据查询的条件之一，按照指标判断规则及阈值的指标标识名、时间及分析对象作为条件，从指标库中取出所需的指标数据，判断出分析模型的指标数据的健康程度，同时按照日志搜索规则及关键词，从日志库中以日志标识名、时间窗口、分析对象作为条件进行匹配，判断出分析模型的日志数据的健康程度。

对于第一任务对应的第一分析模型在第一有向无环图中没有入边的情况下，那么故障分析结果为第一任务对应的第一分析结果；对于第一任务对应的第一分析模型在第一有向无环图中有入边的情况下，故障分析结果不仅由第一任务对应的第一分析结果确定，还由第一模型对应的第一分析任务的第一分析结果确定，第一模型为第一有向无环图中第一任务对应的第一分析模型的入边。

通过上述实施例，将知识库中的分析模型及其关系图与集群拓扑进行组合，可以较为全面的对一个分析对象状态进行系统分析，可以感知其所依赖的组件、主机的状态。

在本申请一种实施例中，在S150之后，还包括如下步骤：

步骤1、根据预设故障事件获取由多个第二分析模型构成的第二有向无环图，第二有向无环图中的每个节点对应一个第二分析模型，每个第二分析模型用于获取集群中的一个分析对象的故障分析结果；

步骤2、根据第二有向无环图确定多个第二分析模型的第二拓扑顺序；

步骤3、第四获取模块，用于获取多个第二分析模型生成的多个第二分析任务，每个第二分析模型生成一个第二分析任务；

步骤4、根据第二拓扑顺序执行每个第二分析模型生成的第二分析任务，获得每个第二分析任务对应的第二分析结果；

步骤5、根据每个第二分析任务对应的第二分析结果，确定发生故障事件的分析对象。

上述中，第二分析模型可以为故障定位类分析模型，第二有向无环图可以预先设置。

示例性地，根据预设故障事件获取多个第二模型构成的第二有向无环图，通过事件驱动模式下的子分析机，来实现故障快速定位功能，根据第二有向无环图确定多个第二分析模型的第二拓扑顺序，通过监听的分布式消息队列及其他接口服务所接收到的故障事件信息，在知识库中获取具有相关故障事件标签以及分析对象的故障定位类分析模型，及其所在的有向无环图，构造出每个集群独立的第二分析任务执行队列，并行执行多个执行队列的第二分析任务，获得第二分析任务对应的第二分析结果，进而确定发生故障事件的分析对象。其后续执行队列的构造与执行过程与前述时钟驱动的子分析机相同。

在本申请一种实施例中，在S110之前，还包括如下步骤：

步骤6、通过指标收集器使用不同的指标收集方式对不同的指标数据源进行指标数据采集；

步骤7、通过指标接收器对所述指标收集器采集的指标数据进行上报，并写入分布式消息队列；

步骤8、将消息队列中的指标数据存储至数据库。

示例性地，每个第一分析模型对集群中的一个分析对象的指标数据和/或日志数据进行分析，需要说明的是，分析对象的指标数据以及日志数据可以同时获取，也可以获取其中的任意一个。

如图4所示，图4是本申请一种实施例提供的大数据集群故障分析方法中任务执行调用链的结构示意图。提供的一个数据采集处理模块中的指标收集子模块，用于将分析对象的指标数据写入分布式消息列队，其特征包括指标收集以及指标接收，指标收集器根据不同的指标数据源，使用不同的指标收集工作方式，例如大数据组件通常提供超文本传输协议(Hyper text transfer protocol，Http)以及远程方法调用(Remote MethodInvocation，Rmi)的指标输出接口，则该类指标收集器运行对应协议的主动收集流程，对于无指标接口的待监控程序，则使用与之匹配的指标收集器运行定制化的主动收集流程，产生贴源层指标数据后发送给指标接收器，并可以根据业务需求及集群负载动态调整采集调度计划；

指标接收器以分布式运行，实时接收指标收集器上报的数据然后写入分布式消息队列，并通过分布式协调服务保证高可用性以及负载均衡性，即使在部分指标接收器故障的时候，指标收集器也会切换发送数据到其他可用的指标接收器，对于复杂的网络环境，指标接收器之间可进行级联转发。

在本申请一种实施例中，在S110之前，还包括如下步骤：

步骤9、通过日志收集器实时收集分析对象新增的日志文本内容；

步骤10、通过日志处理器根据日志文本内容的日志类型，对日志文本内容进行解析，提取结构化字段，并将结构化字段写入分布式消息队列；

步骤11、将消息队列中的结构化字段存储至数据库。

示例性地，还提供一个数据采集处理模块中的日志收集子模块，用于监控分析对象的日志数据并进行解析后写入分布式消息列队，其特征包括日志收集及日志接收，日志收集器运行在需要收集日志的裸金属设备或者容器上，可以监控指定文本文件的变动情况，实时收集新增的日志文本内容发送给日志接收器，日志接收器以分布式运行，实时接收日志收集器上报的数据，并根据日志类型分别进行不同的文本解析，提取出结构化字段，即日志数据，然后发送到分布式消息列队中。日志接收器同指标接收器一样通过分布式协调服务保证高可用性以及负载均衡性，并可通过级联转发在复杂网络中进行数据透传输。

通过上述实施例，指标采集及日志采集逻辑由收集器主动进行，可以体系化调整策略，收集器通过分布式协调服务来发现接收器，实现了高可用性和负载均衡性。接收器支持级联转发，并且在复杂网络中不需要额外配置代理。

如图5所示，图5是本申请一种实施例提供的大数据集群故障分析方法中数据传输入库的结构示意图。

本申请大数据集群故障系统提供一个数据传输入库模块及方法，其特征包括实时同步分布式发布订阅消息系统(Kafka Cluster，Kafka)和超文本传输协议(Hyper texttransport protocol，Http)的指标数据流和日志数据流，在Kafka创建好各个指标数据和日志数据对应的主题，使用实时流处理引擎对源数据进行数据的过滤、清洗、解析、格式化，按照类别输出到Kafka相对应的主题，对接kafka的数据消费模块实时读取消息队列中的指标和日志。

数据消费模块使用改变数据捕获(Change Data Capture，CDC)规范实时将指标和日志数据增量抽取到贴源数据层，搭建实时数仓主题模型层，将来自不同主机的指标和日志进行分类汇总，实时数仓构建触发器监测贴源层数据变化，一旦有数据新增，利用存储过程将贴源层的数据转换并加载到主题模型层。

另外，本申请大数据集群故障分析系统还提供了一个监控告警及故障分析大屏模块及分析方法，用于展示本系统所管理监控的大数据组件运行状态及故障分析。将在大屏模块的第一个页面展示集群拓扑感知中的所有资源实体(集群、服务、组件、主机)及其关系，以可视化树形结构显示在大屏页面，同时将以这些资源实体作为分析对象的运行状态从结果库中实时关联展现。在大屏模块的第二个页面展示所有故障事件，每个故障事件可以从在其详情页面，查看到该事件驱动的故障快速定位分析功能所生成的所有关联分析结果。

需要说明的是，上述本申请实施例描述的应用场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

基于相同的发明构思，本申请还提供了一种大数据集群故障分析装置。具体结合图6进行详细说明。

图6是本申请一种实施例提供的大数据集群故障分析装置的结构示意图。如图6所示，该大数据集群故障分析装置600包括：

第一获取模块601，用于获取由多个第一分析模型构成的第一有向无环图，第一有向无环图中的每个节点对应一个第一分析模型，每个第一分析模型用于对集群中的一个分析对象的指标数据和/或日志数据进行分析；

第一确定模块602，用于根据第一有向无环图确定多个第一分析模型的第一拓扑顺序；

第二获取模块603，用于获取多个第一分析模型生成的多个第一分析任务，每个第一分析模型生成一个第一分析任务；

执行模块604，用于根据第一拓扑顺序执行每个第一分析模型生成的第一分析任务，获得每个第一分析任务对应的第一分析结果；

第二确定模块605，用于根据每个第一分析任务对应的第一分析结果，确定每个第一分析任务对应的分析对象的故障分析结果。

在本申请一种实施例中，所述第二确定模块605，包括：

第一确定子模块，用于若第一任务对应的第一分析模型在第一有向无环图中没有入边，则第一任务对应的分析对象的故障分析结果确定为第一任务对应的第一分析结果，其中，第一任务为多个第一分析任务中的任意一个分析任务；

第二确定子模块，用于若第一任务对应的第一分析模型在第一有向无环图中有入边，则第一任务对应的分析对象的故障分析结果根据第一任务对应的第一分析结果，以及第一模型对应的第一分析任务的第一分析结果确定，其中，第一有向无环图中第一任务对应的第一分析模型的入边为第一模型。

在本申请一种实施例中，每个第一分析模型包括第一分析对象的标识，第一分析对象的指标判断规则及阈值，所述执行模块604，包括：

第一获取子模块，用于对于每一个第二任务，获取预设时间段内第二模型的第一分析对象的指标数据，第二任务为多个第一分析任务中的任意一个分析任务，第二模型为生成第二任务的模型；

第一判断子模块，用于根据第二模型的指标判断规则和阈值，对指标数据进行判断，获得第一子分析结果，第一子分析结果用于指示指标数据的健康度。

在本申请一种实施例中，每个第一分析模型还包括第一分析对象的日志搜索规则及搜索关键词，所述执行模块604，包括：

搜索子模块，用于根据第二模型的第一分析对象的日志搜索规则及搜索关键词，对数据库中预设时间段内存储的日志进行搜索，获得第一日志数据，数据库用于存储分析对象的日志数据；

第二判断子模块，用于对第一日志数据进行判断，获得第二子分析结果，第二子分析结果用于指示第一日志数据的健康度；

作为子模块，用于将第一子分析结果和第二子分析结果中健康程度较低者作为第二任务对应的第一分析结果。

在本申请一种实施例中，所述装置600还包括：

第三获取模块，用于根据预设故障事件获取由多个第二分析模型构成的第二有向无环图，第二有向无环图中的每个节点对应一个第二分析模型，每个第二分析模型用于获取集群中的一个分析对象的故障分析结果；

第三确定模块，用于根据第二有向无环图确定多个第二分析模型的第二拓扑顺序；

第四获取模块，用于获取多个第二分析模型生成的多个第二分析任务，每个第二分析模型生成一个第二分析任务；

生成模块，用于根据第二拓扑顺序执行每个第二分析模型生成的第二分析任务，获得每个第二分析任务对应的第二分析结果；

第四确定模块，用于根据每个第二分析任务对应的第二分析结果，确定发生故障事件的分析对象。

在本申请一种实施例中，所述装置600还包括：

采集模块，用于通过指标收集器使用不同的指标收集方式对不同的指标数据源进行指标数据采集；

上报模块，用于通过指标接收器对指标收集器采集的指标数据进行上报，并写入分布式消息队列；

第一存储模块，用于将消息队列中的指标数据存储至数据库。

在本申请一种实施例中，所述装置600还包括：

收集模块，用于通过日志收集器实时收集分析对象新增的日志文本内容；

解析模块，用于通过日志处理器根据日志文本内容的日志类型，对日志文本内容进行解析，提取结构化字段，并将结构化字段写入分布式消息队列；

第二存储模块，用于将消息队列中的结构化字段存储至数据库。

由此，通过获取多个第一分析模型构成的第一有向无环图，其中第一有向无环图中的每个节点都对应一个第一分析模型，多个第一分析模型生成多个第一分析任务，第一分析模型用于对集群中的一个分析对象的指标数据和/或日志数据进行分析，将指标数据和日志数据同时获取并存储，避免了数据的多路传输，缩短了数据传输链路，方便将数据统一管理，根据第一有向无环图确定多个第一分析模型的第一拓扑顺序，根据确定的第一拓扑顺序执行多个第一分析任务，可以获得第一分析任务对应的第一分析结果，根据第一分析结果来确定第一分析任务对应的分析对象的故障分析结果，这样，通过多个分析模型以及集群拓扑的组合，可以较为全面的对分析对象状态进行系统的分析，进而精准的对故障进行预测与定位，提高故障分析的效率

本申请实施例提供的大数据集群故障分析装置600能够实现前述大数据集群故障分析方法实施例实现的各个过程，为避免重复，这里不再赘述。

图7示出了本申请实施例提供的大数据集群故障分析方法的硬件结构示意图。

在电子设备可以包括处理器701以及存储有计算机程序指令的存储器702。

具体地，上述处理器701可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器702可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器702可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器702可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器702可在综合网关容灾设备的内部或外部。在特定实施例中，存储器702是非易失性固态存储器。

存储器可包括只读存储器(ROM)，随机存取存储器(RAM)，磁盘存储介质设备，光存储介质设备，闪存设备，电气、光学或其他物理/有形的存储器存储设备。因此，通常，存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如，存储器设备)，并且当该软件被执行(例如，由一个或多个处理器)时，其可操作来执行参考根据本公开的第一方面或第二方面的方法所描述的操作。

处理器701通过读取并执行存储器702中存储的计算机程序指令，以实现上述实施例中的任意一种大数据集群故障分析方法。

在一个示例中，电子设备还可包括通信接口703和总线710。其中，如图7所示，处理器701、存储器702、通信接口703通过总线710连接并完成相互间的通信。

通信接口703，主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。

总线710包括硬件、软件或两者，将大数据集群故障分析方法或验证设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线710可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

另外，结合上述实施例中的大数据集群故障分析方法，本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种大数据集群故障分析方法。

需要明确的是，本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本申请的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本申请的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本申请中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本申请不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解，流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器，以产生一种机器，使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，也可以由执行指定的功能或动作的专用硬件来实现，或可由专用硬件和计算机指令的组合来实现。

以上所述，仅为本申请的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。

Claims

1.一种大数据集群故障分析方法，其特征在于，所述方法包括：

获取由多个第一分析模型构成的第一有向无环图，所述第一有向无环图中的每个节点对应一个第一分析模型，每个第一分析模型用于对集群中的一个分析对象的指标数据和/或日志数据进行分析；

根据所述第一有向无环图确定所述多个第一分析模型的第一拓扑顺序；

获取所述多个第一分析模型生成的多个第一分析任务，每个第一分析模型生成一个第一分析任务；

根据所述第一拓扑顺序执行每个第一分析模型生成的第一分析任务，获得每个第一分析任务对应的第一分析结果；

2.根据权利要求1所述的方法，其特征在于，所述根据每个第一分析任务对应的第一分析结果，确定每个第一分析任务对应的分析对象的故障分析结果，包括：

若第一任务对应的第一分析模型在所述第一有向无环图中没有入边，则所述第一任务对应的分析对象的故障分析结果确定为所述第一任务对应的第一分析结果，其中，所述第一任务为所述多个第一分析任务中的任意一个分析任务；

若所述第一任务对应的第一分析模型在所述第一有向无环图中有入边，则所述第一任务对应的分析对象的故障分析结果根据所述第一任务对应的第一分析结果，以及第一模型对应的第一分析任务的第一分析结果确定，其中，所述第一有向无环图中所述第一任务对应的第一分析模型的入边为所述第一模型。

3.根据权利要求1所述的方法，其特征在于，每个第一分析模型包括第一分析对象的标识，所述第一分析对象的指标判断规则及阈值；

所述根据所述第一拓扑顺序执行每个第一分析模型生成的第一分析任务，获得每个第一分析任务对应的第一分析结果，包括：

对于每一个第二任务，获取预设时间段内第二模型的第一分析对象的指标数据，所述第二任务为所述多个第一分析任务中的任意一个分析任务，所述第二模型为生成所述第二任务的模型；

根据所述第二模型的指标判断规则和阈值，对所述指标数据进行判断，获得第一子分析结果，所述第一子分析结果用于指示所述指标数据的健康程度。

4.根据权利要求3所述的方法，其特征在于，每个第一分析模型还包括所述第一分析对象的日志搜索规则及搜索关键词；

根据所述第一拓扑顺序执行每个第一分析模型生成的第一分析任务，获得每个第一分析任务对应的第一分析结果，还包括：

根据所述第二模型的第一分析对象的日志搜索规则及搜索关键词，对数据库中所述预设时间段内存储的日志进行搜索，获得第一日志数据，所述数据库用于存储分析对象的日志数据；

对所述第一日志数据进行判断，获得第二子分析结果，所述第二子分析结果用于指示所述第一日志数据的健康度；

将第一子分析结果和第二子分析结果中健康程度较低者作为第二任务对应的第一分析结果。

5.根据权利要求1所述的方法，其特征在于，在所述根据每个第一分析任务对应的第一分析结果，确定每个第一分析任务对应的分析对象的故障分析结果之后，所述方法还包括：

根据预设故障事件获取由多个第二分析模型构成的第二有向无环图，所述第二有向无环图中的每个节点对应一个第二分析模型，每个第二分析模型用于获取集群中的一个分析对象的故障分析结果；

根据所述第二有向无环图确定所述多个第二分析模型的第二拓扑顺序；

获取所述多个第二分析模型生成的多个第二分析任务，每个第二分析模型生成一个第二分析任务；

根据所述第二拓扑顺序执行每个第二分析模型生成的第二分析任务，获得每个第二分析任务对应的第二分析结果；

根据每个第二分析任务对应的第二分析结果，确定发生所述故障事件的分析对象。

6.根据权利要求1所述的方法，其特征在于，在所述获取由多个第一分析模型构成的第一有向无环图之前，所述方法还包括：

通过指标收集器使用不同的指标收集方式对不同的指标数据源进行指标数据采集；

通过指标接收器对所述指标收集器采集的指标数据进行上报，并写入分布式消息队列；

将所述消息队列中的指标数据存储至数据库。

7.根据权利要求1所述的方法，其特征在于，在所述获取由多个第一分析模型构成的第一有向无环图之前，所述方法还包括：

通过日志收集器实时收集分析对象新增的日志文本内容；

通过日志处理器根据所述日志文本内容的日志类型，对所述日志文本内容进行解析，提取结构化字段，并将所述结构化字段写入分布式消息队列；

将所述消息队列中的结构化字段存储至数据库。

8.一种大数据集群故障分析装置，其特征在于，所述装置包括：

第一获取模块，用于获取由多个第一分析模型构成的第一有向无环图，所述第一有向无环图中的每个节点对应一个第一分析模型，每个第一分析模型用于对集群中的一个分析对象的指标数据和/或日志数据进行分析；

第一确定模块，用于根据所述第一有向无环图确定所述多个第一分析模型的第一拓扑顺序；

第二获取模块，用于获取所述多个第一分析模型生成的多个第一分析任务，每个第一分析模型生成一个第一分析任务；

执行模块，用于根据所述第一拓扑顺序执行每个第一分析模型生成的第一分析任务，获得每个第一分析任务对应的第一分析结果；

9.一种电子设备，其特征在于，所述电子设备包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-7中任一项所述的大数据集群故障分析方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-7中任意一项所述的方法。

11.一种计算机程序产品，其特征在于，所述计算机程序产品中的指令由电子设备的处理器执行时，使得所述电子设备执行如权利要求1-7中任意一项所述的方法。