CN111209131A

CN111209131A - 一种基于机器学习确定异构系统的故障的方法和系统

Info

Publication number: CN111209131A
Application number: CN201911390574.3A
Authority: CN
Inventors: 蔡运健; 陈丽华; 吴超华; 詹铤伟; 周晓玲; 陈坚
Original assignee: Guangzhou Aerospace Software Branch Of Aerospace Information Co Ltd
Current assignee: Guangzhou Aerospace Software Branch Of Aerospace Information Co Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-29
Anticipated expiration: 2039-12-30
Also published as: CN111209131B

Abstract

本发明提供一种基于机器学习确定异构系统的故障的方法和系统，其通过对历史的系统故障和重大事件的安全进行分析，初步建立案例库数据和故障树模型，并整理分析指标数据和标注数据，分别训练不同使用场景的数据模型；根据采集到的当前指标数据以及数据模型，计算分析系统运行健康状况以及对抓取到的异常指标数据触发故障诊断和告警；根据机器学习建立的关系图谱以及采集的异常堆栈标注数据，自动诊断出故障原因，并根据故障原因确定故障修复方案，触发故障修复。所述方法和系统降低了运维人员对业务专业知识的依赖，通过机器学习实现智能快速发现故障并诊断故障产生的原因，自动完成自我修复，大大提高了分布工异构系统运行的安全性和稳定性。

Description

一种基于机器学习确定异构系统的故障的方法和系统

技术领域

本发明涉及机器学习领域,并且更具体地，涉及一种基于机器学习确定异构系统的故障的方法和系统。

背景技术

随着计算机应用范围的日益扩大，科技的进步，大规模分布式计算成为了现实，分布式异构系统(DHS DistributedHeterogeneous System)逐渐成为解决复杂应用问题的有效工具。

大型分布式异构系统由于系统中节点较多，自身结构复杂，业务逻辑复杂，一个系统故障可能引起多项监测指标异常和大量测试失效，系统管理员难以快速准确地诊断故障原因。同时，系统内部对设备和软件的监测往往存在盲点，使得内部监测指标均正常，但仍然发生系统失效。

在这种环境下，服务器之间网络通信，任务调度也会产生更多问题，这些问题和故障的处理大多都要求快速和准确，但是维护人员手工定位、排查和解决故障一般都需要很长时间，需要管理员根据相应的技术或经验逐层验证、自行定位，这就很大程度地延长了故障恢复时间，系统会变得越来越复杂，精确定位异常故障变得越来越困难，这带给了维护人员前所未有的巨大压力。

随着业务、服务器数量的快速增长，技术人员面临着巨大的挑战，主要有以下几个方面：

1、监控指标越来越多，使用传统的运维方式从海量指标数据中找出运维需要关注的指标，运维人员需要花费较长的时间；

2、大规模报警会影响到技术人员的决策判断，不能及时响应产生的故障；

3、工具分散，不但增加了学习成本和拥有成本，而且各系统之间相互独立，数据共享困难；

4、相同问题的排查处理经验得不到传承，技术人员不停的做着重复劳动。

发明内容

为了解决分布式异构系统故障原因确定困难，效率低下的技术问题，本发明提供一种基于机器学习确定异构系统的故障的方法，所述方法包括：

步骤1、定时定频采集异构系统运行时的指标数据和标注数据；

步骤2、基于预先建立的故障诊断模型，根据采集的指标数据确定异构系统运行健康状况，并在出现异常指标数据时，触发故障原因诊断和告警；

步骤3、当异常指标数据触发故障诊断时，基于预先建立的故障诊断模型，根据采集的标注数据中的异常堆栈标注数据，确定故障原因；

步骤4、基于预先建立的故障诊断模型，根据故障原因确定故障修复方案，并触发故障修复。

进一步地，所述方法在定时定频采集异构系统运行时的指标数据和标注数据还包括基于异构系统的历史数据，通过故障树分析方法建立故障树模型，以及训练不同使用场景下的数据模型，其中：

采集异构系统历史的系统故障和重大事件的案例数据，生成案例数据库，并将所述案例数据库中的数据分为训练数据和验证数据；

基于所述训练数据，通过故障树分析方法建立初始故障树模型；

利用故障诊断方法，对所述案例数据库的验证数据进行分析，分别确定故障树模型中指标数据和标注数据的权重，生成最优故障树模型，并根据所述验证数据中的指标数据或标注数据，分别训练不同使用场景的数据模型，以组成故障诊断模型，其中，所述使用场景包括故障诊断流程、故障排查决策、故障告警。

进一步地，所述利用故障诊断方法，对所述案例数据库的验证数据进行分析，分别确定初始故障诊断模型中指标数据和标注数据的权重，并根据所述验证数据的指标数据或标注数据，分别训练不同使用场景的数据模型，以组成故障诊断模型，包括：

利用故障诊断方法，对所述案例数据库的验证数据进行分析，将基础资源管理系统的资源信息数据抽取出，建立资源实体之间关系图谱；

以机器学习引擎为基础引擎，根据指标数据或者标注数据，建立不同使用场景的数据模型，所述模型包括指标异常波动模型、指标异常波动原因模型、故障诊断流程库、故障排除决策库、预测预警模型和应用服务监控模型。

进一步地，所述当异常指标数据触发故障原因诊断时，基于预先建立的故障诊断模型，根据采集的标注数据中的异常堆栈标注数据，确定故障原因包括：

基于预先建立的故障诊断模型中的数据模型，根据异常指标数据触发故障原因诊断；

基于预先建立的故障诊断模型中的最优故障树模型和关系图谱，根据异常堆栈标注数据进行自检，获取自检结果；

根据历史排查问题经验，计算故障可能存在的所有原因及出现频率，进行相应的检查，获取检查结果；

根据故障的自检结果和应用检查结果，通过现象相似矩阵分析故障原因；

当不能自动分析出正确的故障原因，通知人工介入处理，对更正或增加的异常指标数据进行标注后保存至标注库中。

进一步地，所述基于预先建立的故障诊断模型，根据故障原因确定故障修复方案，并触发故障修复是指基于预先建立的故障诊断模型中的故障排除决策库，根据故障原因及相似案例解决情况确定故障修复方案，并触发修复操作，其中，当所述修复操作需要人工完成时，通过可视化方式展示给操作人员，或者通过短信、微信和邮件中的至少一种通知操作人员。

根据本发明的另一方面，本发明提供一种基于机器学习确定异构系统的故障的系统，所述系统包括：

数据采集单元，其用于定时定频采集异构系统运行时的指标数据和标注数据；

故障确定单元，其用于基于预先建立的故障诊断模型，根据采集的指标数据确定异构系统运行健康状况，并在出现异常指标数据时，触发故障原因诊断和告警；

故障原因单元，其用于当异常指标数据触发故障诊断时，基于预先建立的故障诊断模型，根据采集的标注数据中的异常堆栈标注数据，确定故障原因；

故障修复单元，其用于基于预先建立的故障诊断模型，根据故障原因确定故障修复方案，并触发故障修复。

进一步地，所述系统还包括模型建立单元，其用于基于异构系统的历史数据，通过故障树分析方法建立故障树模型，以及训练不同使用场景下的数据模型，所述模型建立单元包括：

数据库单元，其用于采集异构系统历史的系统故障和重大事件的案例数据，生成案例数据库，并将所述案例数据库中的数据分为训练数据和验证数据；

故障树模型单元，其用于基于所述训练数据，通过故障树分析方法建立初始故障树模型；

故障诊断模型单元，其用于利用故障诊断方法，对所述案例数据库的验证数据进行分析，分别确定故障树模型中指标数据和标注数据的权重，生成最优故障树模型，并根据所述验证数据中的指标数据或标注数据，分别训练不同使用场景的数据模型，以组成故障诊断模型，其中，所述使用场景包括故障诊断流程、故障排查决策、故障告警。

进一步地，所述故障诊断模型单元利用故障诊断方法，对所述案例数据库的验证数据进行分析，分别确定初始故障诊断模型中指标数据和标注数据的权重，并根据所述验证数据的指标数据或标注数据，分别训练不同使用场景的数据模型，以组成故障诊断模型，包括：

以机器学习引擎为基础引擎，根据指标数据或者标注数据，建立不同使用场景的数据模型，所述模型包括故障诊断流程库、故障排除决策库、预测预警模型、应用服务监控模型。

进一步地，所述故障原因单元包括：

初步自检单元，其用于基于预先建立的故障诊断模型中的数据模型，根据异常指标数据触发故障原因诊断后，基于预先建立的故障诊断模型中的最优故障树模型和关系图谱，根据异常堆栈标注数据进行自检，获取自检结果；

应用检查单元，其用于根据历史排查问题经验，计算故障可能存在的所有原因及出现频率，进行相应的检查，获取检查结果；

故障分析单元，其用于根据故障的自检结果和应用检查结果，通过现象相似矩阵分析故障原因；

人工介入单元，其用于当不能自动分析出正确的故障原因，通知人工介入处理，对更正或增加的异常指标数据进行标注后保存至标注库中。

进一步地，所述故障修复单元基于预先建立的故障诊断模型，根据故障原因确定故障修复方案，并触发故障修复是指基于预先建立的故障诊断模型中的故障排除决策库，根据故障原因及相似案例解决情况确定故障修复方案，并触发修复操作，其中，当所述修复操作需要人工完成时，通过可视化方式展示给操作人员，或者通过短信、微信和邮件中的至少一种通知操作人员。

本发明技术方案提供的基于机器学习确定异构系统的故障的方法和系统通过对历史的系统故障和重大事件的安全进行分析，初步建立案例库数据和故障树模型，并整理分析指标数据和标注数据，分别训练不同使用场景的数据模型；根据采集到的当前指标数据以及数据模型，计算分析系统运行健康状况以及对抓取到的异常指标数据触发故障诊断和告警；根据机器学习建立的关系图谱以及采集的异常堆栈标注数据，自动诊断出故障原因，并根据故障原因确定故障修复方案，触发故障修复。所述方法和系统降低了运维人员对业务专业知识的依赖，有效解决了人工定位问题难、定位问题慢的缺点，同时通过机器学习实现智能快速发现故障并诊断故障产生的原因，自动完成自我修复，大大提高了分布工异构系统运行的安全性和稳定性。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1为根据本发明优选实施方式的基于机器学习确定异构系统的故障的方法的流程图；

图2为根据本发明优选实施方式的基于机器学习确定异构系统的故障的系统的结构示意图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式，然而，本发明可以用许多不同的形式来实施，并且不局限于此处描述的实施例，提供这些实施例是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中，相同的单元/元件使用相同的附图标记。

除非另有说明，此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外，可以理解的是，以通常使用的词典限定的术语，应当被理解为与其相关领域的语境具有一致的含义，而不应该被理解为理想化的或过于正式的意义。

图1为根据本发明优选实施方式的基于机器学习确定异构系统的故障的方法的流程图。如图1所示，本优选实施方式所述的基于机器学习确定异构系统的故障的方法从步骤101开始。

在步骤101，基于异构系统的历史数据，通过故障树分析方法建立故障树模型，以及训练不同使用场景下的数据模型。

在步骤102，定时定频采集异构系统运行时的指标数据和标注数据。

在步骤103，基于预先建立的故障诊断模型，根据采集的指标数据确定异构系统运行健康状况，并在出现异常指标数据时，触发故障原因诊断和告警。

在本优选实施方式中，每天定时定频抓取当前指标数据，如出现异常指标数据和标注数据，则快速触发诊断流程，利用历史指标数据建立的数据模型计算分析实时获取的当前指标数据，获取和分析当前系统运行健康状况，并根据抓取到的异常指标数据触发故障诊断和告警。

故障诊断为自动诊断，通过故障树诊断模型、现象相似矩阵快速得出故障原因。告警可通过短信、微信等形式立刻通知管理员，并将其警告信息可视化展现在系统监控界面，便于管理员排查及恢复。

在步骤104，当异常指标数据触发故障诊断时，基于预先建立的故障诊断模型，根据采集的标注数据中的异常堆栈标注数据，确定故障原因。

在步骤105，基于预先建立的故障诊断模型，根据故障原因确定故障修复方案，并触发故障修复。

优选地，所述基于异构系统的历史数据，通过故障树分析方法建立故障树模型，以及训练不同使用场景下的数据模型包括：

本优选实施方式中，根据系统故障及重大事件形成案例数据库，总结出现的现象和原因，通过故障树分析法，建立故障树模型，故障树模型数据与案例库数据存在联系，案例库数据可划分为案例集Cases、现象集Phenomenons、原因集Reasons三部分，同一案例对应一至多个现象和原因，在诊断时利用案例和现象进行相似性匹配后使用相似案例对应的原因进行诊断。

在建立故障树模型时，先分析案例库的产生某一类故障事件的现象，即获得分析需诊断案例的若干个顶事件和中间事件(即故障现象)，例如：当出现“系统无法登录”故障时，将获得下列故障现象：

系统网页无法打开；

系统登陆页面报错无法登陆；

系统登录页面输入账号密码后一直等待，未能进入系统；

系统业务处理过程中长时间等待(大面积或者4分钟以上)；

对上述各个事件使用广度搜索策略，按照重要事件的底事件交集出现频次进行排序后作为诊断结果集。

使用案例相似性方法的诊断，如诊断成功则更新底事件频次，如案例未在案例库中则将新案例添加至案例库；如诊断后底事件交集为空或诊断失败则标记各重要事件，跳转至案例相似性方法进行诊断。

优选地，所述利用故障诊断方法，对所述案例数据库的验证数据进行分析，分别确定初始故障诊断模型中指标数据和标注数据的权重，并根据所述验证数据的指标数据或标注数据，分别训练不同使用场景的数据模型，以组成故障诊断模型，包括：

指标数据主要包括业务指标，系统指标，应用运行指标三大类数据，这些数据反映的是实际生产运行的情况。标注数据是指接收标注服务数据。

分析现有案例，利用故障诊断方法，将基础资源管理系统的资源信息数据抽取出，建立资源实体之间关系图谱，重点对采集的数据清洗处理后，通过AI数据建模系统搭建指标异常波动模型、指标异常波动原因模型、故障排查决策模型。

导致指标异常波动的原因有很多，大致可以分为以下几类：

1、网络连通性原因；

2、应用服务器系统资源占用(包括：磁盘，cpu，io，内存)原因；

3、数据库问题(包括：表空间满、死锁、归档日志空间满等)；

4、应用Exception日志；

5、负载均衡异常；

6、防火墙限制；

7、接口服务异常(包括：人口户政接口、人像比对接口等服务)。

不同的故障原因有不同的指标数据，其采集工具也不一样。日志类以Filebeat为主，系统指标类收集采用Open-falcon为主，业务指标通过监听Oracle日志listener.log和警告日志alert和trace文件内容等各类技术手段来实现。

其中Open-falcon包括以下内容：

基础监控：CPU、Load、内存、磁盘、IO、网络相关、内核参数、ss统计输出、端口采集、核心服务的进程存活信息采集、关键业务进程资源消耗、NTP offset采集、DNS解析采集

JVM监控：每个JVM应用的参数，比如GC、类加载、JVM内存、进程、线程，都可以上报给Falcon，而这些参数的获得，都可以通过MxBeans实现。

业务应用监控：对于业务需要监控的接口，比如响应时间等。可以根据业务的需要，上报相关数据到Falcon，并通过Falcon查看结果。

根据标注后的指标异常波动原因，可以建立指标波动原因分类库，然后根据指标波动原因分类库，我们可以快速确定故障排查方向。

(1)以Java为例：当Java应用抛出TimeoutException这个异常时，可以快速确定其异常波动原因有以下几类：

配置不对导致访问不通；

网络原因。

在标注这2项指标异常波动原因后，模型可以快速触发诊断脚本(配置检验脚本和网络检测脚本)，对网络进行排查确认。

在很多时候，应用异常堆栈关键词的标注，可以很直观告诉我们故障的原因，通过关键key可以帮助我们快速抽取有用日志内容，快速确认本次故障原因，决策下一步故障诊断检查动作。

(2)以Oralce为例：

当出现无法正常登陆系统，可通过PL/SQL登陆数据库，看是否有抛出登陆异常。一般异常情况可能有：

数据库监听异常；

数据库归档日志爆满；

服务器磁盘空间爆满；

其他原因。

如果是数据监听异常、数据库归档日志爆满问题，登录时会直接报ORA-12541、ORA-00257等错误。如果数据库登录无明显报错信息，排除网络等问题后，直接登录数据库服务器，查看磁盘空间。

当Oracle抛出ORA-00257archiver error异常时，可快速判断为表空间已满或空间不足错误，通过简单删除日志或加大存储空间就能够解决。针对这一类问题，我们还可以设置预警(如使用select*from v$asm_diskgroup监控磁盘组剩余大小)，在表空间或归档日志占用控件到达阀值百分比时，预先发出告警通知管理员清理日志或加大存储空间。

当采集数据，系统抛出HibernateJdbcException could not execute batch，可能原因：

无法连接数据库；

表空间爆满；

磁盘组爆满；

其他原因。

使用pl/sql登录数据库，查看是否能正常登陆，如果能正常登陆，查看是否有表空间爆了，注意由于有些表空间设置的是自动扩展，还要查磁盘组可用空间大小。

当采集数据反映保存慢，排查网络问题后，可能原因有：

数据库存在死锁；

有消耗大量资源的语句；

表空间爆了(高水位)；

其他原因。

根据配置的脚本，查阻塞的会话、死锁情况和数据库IO情况，从而更快定位问题。

Oracle这些常见的指标异常波动原因，进行关键key的标注，能加快故障诊断的速度及系统恢复速度。

以机器学习引擎(sparkML)为基础引擎，在接收到各类指标数据或是标注数据后，建立不同使用场景的数据模型，包括：故障诊断流程库、故障排除决策库、预测预警模型、应用服务监控模型等。

将KPI关建性指标结果数据推到模型训练模块，通过模型训练，实时在线分析指标，实现各类监督式学习、半监督式学习等。

优选地，所述当异常指标数据触发故障原因诊断时，基于预先建立的故障诊断模型，根据采集的标注数据中的异常堆栈标注数据，确定故障原因包括：

优选地，所述基于预先建立的故障诊断模型，根据故障原因确定故障修复方案，并触发故障修复是指基于预先建立的故障诊断模型中的故障排除决策库，根据故障原因及相似案例解决情况确定故障修复方案，并触发修复操作，其中，当所述修复操作需要人工完成时，通过可视化方式展示给操作人员，或者通过短信、微信和邮件中的至少一种通知操作人员。

根据机器学习建立的关系图谱(如业务、应用、机器关系统图谱)及异常堆栈标注数据，可先快速进行自检(包括：异常内容、系统资源利用情况、业务波动情况等)和获取自检结果。

同时根据运维人员、技术人员发现的故障现象，通过故障事件相关性快速排查问题，定位故障可能存在的原因，并进行下一步检查动作，包括故障影响范围检查、业务影响面检查等。

若是不能自动分析出所述故障原因，则人工介入处理，并对所述异常指标数据进行标注后保存至标注库中。

例如：如果某市用户无法登录系统，根据标注Exception关键词模型库找到故障可能原因，识别出来是网络连接、负载均衡、还是服务器资源的问题，决策故障检查的方向。假设是网络连接的问题，则触发基础的网络通信检查，同时收集网络通信层日志，检查具体网络层的各项指标，获取检查结果。

在足够大的案例库、足够多标注数据库及准确的故障树模型，可自动快速出故障原因。如果在知识库还不够完善的时候，则不能自动分析出故障原因，此时，需要人介入处理，对库中不存在异常指标数据进行人工标注，以便进一步完善关键key标注数据及数据模型。

根据诊断出来的故障原因及相似案例解决方案，确定出故障修复方案，并触发相应的故障修复操作，如需人工操作则通过可视化方式展现给管理员，或通过短信、微信等方式通知管理员。

本优选实施方式所述的基于机器学习确定异构系统的故障的方法和现有技术相比，具有以下有益效果：

1、通过将机器学习模型应用到智能化监控系统中，能够快速发现系统故障，并快速诊断故障产生的原因，同时提供故障处理方案，对于可自动修复故障类型根据其诊断结果和历史案例，实现自我修复动作，如需人工修复的故障，则通过告警通知管理员修复；

2、通过案例库建立、相似案例矩阵及故障树分析方法、机器学习算法等，建立联动多维的故障诊断模型，解决单一规则的监控，不能联动判断识别，负载波动不规则、应用阀值过于死板导致错误率高、存在较多的错报、漏报等问题；

3、根据机器学习建立的应用、业务、服务器三者关系图谱、业务关联图谱，快速提取关键异常信息，并跟据标注数据识别故障产生原因，自动触发工具进行修复。

图2为根据本发明优选实施方式的基于机器学习确定异构系统的故障的系统的结构示意图。如图2所示，本优选实施方式所述的基于机器学习确定异构系统的故障的系统200包括：

模型建立单元201，其用于基于异构系统的历史数据，通过故障树分析方法建立故障树模型，以及训练不同使用场景下的数据模型。

数据采集单元202，其用于定时定频采集异构系统运行时的指标数据和标注数据；

故障确定单元203，其用于基于预先建立的故障诊断模型，根据采集的指标数据确定异构系统运行健康状况，并在出现异常指标数据时，触发故障原因诊断和告警；

故障原因单元204，其用于当异常指标数据触发故障诊断时，基于预先建立的故障诊断模型，根据采集的标注数据中的异常堆栈标注数据，确定故障原因；

故障修复单元205，其用于基于预先建立的故障诊断模型，根据故障原因确定故障修复方案，并触发故障修复。

优选地，所述模型建立单元201包括：

数据库单元211，其用于采集异构系统历史的系统故障和重大事件的案例数据，生成案例数据库，并将所述案例数据库中的数据分为训练数据和验证数据；

故障树模型单元212，其用于基于所述训练数据，通过故障树分析方法建立初始故障树模型；

故障诊断模型单元213，其用于利用故障诊断方法，对所述案例数据库的验证数据进行分析，分别确定故障树模型中指标数据和标注数据的权重，生成最优故障树模型，并根据所述验证数据中的指标数据或标注数据，分别训练不同使用场景的数据模型，以组成故障诊断模型，其中，所述使用场景包括故障诊断流程、故障排查决策、故障告警。

优选地，所述故障诊断模型单元利用故障诊断方法，对所述案例数据库的验证数据进行分析，分别确定初始故障诊断模型中指标数据和标注数据的权重，并根据所述验证数据的指标数据或标注数据，分别训练不同使用场景的数据模型，以组成故障诊断模型，包括：

优选地，所述故障原因单元204包括：

初步自检单元241，其用于基于预先建立的故障诊断模型中的数据模型，根据异常指标数据触发故障原因诊断后，基于预先建立的故障诊断模型中的最优故障树模型和关系图谱，根据异常堆栈标注数据进行自检，获取自检结果；

应用检查单元242，其用于根据历史排查问题经验，计算故障可能存在的所有原因及出现频率，进行相应的检查，获取检查结果；

故障分析单元243，其用于根据故障的自检结果和应用检查结果，通过现象相似矩阵分析故障原因；

人工介入单元244，其用于当不能自动分析出正确的故障原因，通知人工介入处理，对更正或增加的异常指标数据进行标注后保存至标注库中。

优选地，所述故障修复单元基于预先建立的故障诊断模型，根据故障原因确定故障修复方案，并触发故障修复是指基于预先建立的故障诊断模型中的故障排除决策库，根据故障原因及相似案例解决情况确定故障修复方案，并触发修复操作，其中，当所述修复操作需要人工完成时，通过可视化方式展示给操作人员，或者通过短信、微信和邮件中的至少一种通知操作人员。

本发明所述基于机器学习确定异构系统的故障的系统对异构系统的故障进行诊断，确定原因并修复的步骤与本发明所述基于机器学习确定异构系统的故障的方法采取的步骤相同，并且达到的技术效果也相同，此处不再赘述。

已经通过参考少量实施方式描述了本发明。然而，本领域技术人员所公知的，正如附带的专利权利要求所限定的，除了本发明以上公开的其他的实施例等同地落在本发明的范围内。

通常地，在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释，除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例，除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行，除非明确地说明。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于机器学习确定异构系统的故障的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法在定时定频采集异构系统运行时的指标数据和标注数据还包括基于异构系统的历史数据，通过故障树分析方法建立故障树模型，以及训练不同使用场景下的数据模型，其中：

3.根据权利要求2所述的方法，其特征在于，所述利用故障诊断方法，对所述案例数据库的验证数据进行分析，分别确定初始故障诊断模型中指标数据和标注数据的权重，并根据所述验证数据的指标数据或标注数据，分别训练不同使用场景的数据模型，以组成故障诊断模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述当异常指标数据触发故障原因诊断时，基于预先建立的故障诊断模型，根据采集的标注数据中的异常堆栈标注数据，确定故障原因包括：

5.根据权利要求1所述的方法，其特征在于，所述基于预先建立的故障诊断模型，根据故障原因确定故障修复方案，并触发故障修复是指基于预先建立的故障诊断模型中的故障排除决策库，根据故障原因及相似案例解决情况确定故障修复方案，并触发修复操作，其中，当所述修复操作需要人工完成时，通过可视化方式展示给操作人员，或者通过短信、微信和邮件中的至少一种通知操作人员。

6.一种基于机器学习确定异构系统的故障的系统，其特征在于，所述系统包括：

7.根据权利要求6所述的系统，其特征在于，所述系统还包括模型建立单元，其用于基于异构系统的历史数据，通过故障树分析方法建立故障树模型，以及训练不同使用场景下的数据模型，所述模型建立单元包括：

8.根据权利要求7所述的系统，其特征在于，所述故障诊断模型单元利用故障诊断方法，对所述案例数据库的验证数据进行分析，分别确定初始故障诊断模型中指标数据和标注数据的权重，并根据所述验证数据的指标数据或标注数据，分别训练不同使用场景的数据模型，以组成故障诊断模型，包括：

9.根据权利要求8所述的系统，其特征在于，所述故障原因单元包括：

10.根据权利要求6所述的系统，其特征在于，所述故障修复单元基于预先建立的故障诊断模型，根据故障原因确定故障修复方案，并触发故障修复是指基于预先建立的故障诊断模型中的故障排除决策库，根据故障原因及相似案例解决情况确定故障修复方案，并触发修复操作，其中，当所述修复操作需要人工完成时，通过可视化方式展示给操作人员，或者通过短信、微信和邮件中的至少一种通知操作人员。