CN111209131A - 一种基于机器学习确定异构系统的故障的方法和系统 - Google Patents

一种基于机器学习确定异构系统的故障的方法和系统 Download PDF

Info

Publication number
CN111209131A
CN111209131A CN201911390574.3A CN201911390574A CN111209131A CN 111209131 A CN111209131 A CN 111209131A CN 201911390574 A CN201911390574 A CN 201911390574A CN 111209131 A CN111209131 A CN 111209131A
Authority
CN
China
Prior art keywords
fault
data
model
fault diagnosis
index data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911390574.3A
Other languages
English (en)
Inventor
蔡运健
陈丽华
吴超华
詹铤伟
周晓玲
陈坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Aerospace Software Branch Of Aerospace Information Co Ltd
Original Assignee
Guangzhou Aerospace Software Branch Of Aerospace Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Aerospace Software Branch Of Aerospace Information Co Ltd filed Critical Guangzhou Aerospace Software Branch Of Aerospace Information Co Ltd
Priority to CN201911390574.3A priority Critical patent/CN111209131A/zh
Publication of CN111209131A publication Critical patent/CN111209131A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Abstract

本发明提供一种基于机器学习确定异构系统的故障的方法和系统,其通过对历史的系统故障和重大事件的安全进行分析,初步建立案例库数据和故障树模型,并整理分析指标数据和标注数据,分别训练不同使用场景的数据模型;根据采集到的当前指标数据以及数据模型,计算分析系统运行健康状况以及对抓取到的异常指标数据触发故障诊断和告警;根据机器学习建立的关系图谱以及采集的异常堆栈标注数据,自动诊断出故障原因,并根据故障原因确定故障修复方案,触发故障修复。所述方法和系统降低了运维人员对业务专业知识的依赖,通过机器学习实现智能快速发现故障并诊断故障产生的原因,自动完成自我修复,大大提高了分布工异构系统运行的安全性和稳定性。

Description

一种基于机器学习确定异构系统的故障的方法和系统
技术领域
本发明涉及机器学习领域,并且更具体地,涉及一种基于机器学习确定异构系统的故障的方法和系统。
背景技术
随着计算机应用范围的日益扩大,科技的进步,大规模分布式计算成为了现实,分布式异构系统(DHS DistributedHeterogeneous System)逐渐成为解决复杂应用问题的有效工具。
大型分布式异构系统由于系统中节点较多,自身结构复杂,业务逻辑复杂,一个系统故障可能引起多项监测指标异常和大量测试失效,系统管理员难以快速准确地诊断故障原因。同时,系统内部对设备和软件的监测往往存在盲点,使得内部监测指标均正常,但仍然发生系统失效。
在这种环境下,服务器之间网络通信,任务调度也会产生更多问题,这些问题和故障的处理大多都要求快速和准确,但是维护人员手工定位、排查和解决故障一般都需要很长时间,需要管理员根据相应的技术或经验逐层验证、自行定位,这就很大程度地延长了故障恢复时间,系统会变得越来越复杂,精确定位异常故障变得越来越困难,这带给了维护人员前所未有的巨大压力。
随着业务、服务器数量的快速增长,技术人员面临着巨大的挑战,主要有以下几个方面:
1、监控指标越来越多,使用传统的运维方式从海量指标数据中找出运维需要关注的指标,运维人员需要花费较长的时间;
2、大规模报警会影响到技术人员的决策判断,不能及时响应产生的故障;
3、工具分散,不但增加了学习成本和拥有成本,而且各系统之间相互独立,数据共享困难;
4、相同问题的排查处理经验得不到传承,技术人员不停的做着重复劳动。
发明内容
为了解决分布式异构系统故障原因确定困难,效率低下的技术问题,本发明提供一种基于机器学习确定异构系统的故障的方法,所述方法包括:
步骤1、定时定频采集异构系统运行时的指标数据和标注数据;
步骤2、基于预先建立的故障诊断模型,根据采集的指标数据确定异构系统运行健康状况,并在出现异常指标数据时,触发故障原因诊断和告警;
步骤3、当异常指标数据触发故障诊断时,基于预先建立的故障诊断模型,根据采集的标注数据中的异常堆栈标注数据,确定故障原因;
步骤4、基于预先建立的故障诊断模型,根据故障原因确定故障修复方案,并触发故障修复。
进一步地,所述方法在定时定频采集异构系统运行时的指标数据和标注数据还包括基于异构系统的历史数据,通过故障树分析方法建立故障树模型,以及训练不同使用场景下的数据模型,其中:
采集异构系统历史的系统故障和重大事件的案例数据,生成案例数据库,并将所述案例数据库中的数据分为训练数据和验证数据;
基于所述训练数据,通过故障树分析方法建立初始故障树模型;
利用故障诊断方法,对所述案例数据库的验证数据进行分析,分别确定故障树模型中指标数据和标注数据的权重,生成最优故障树模型,并根据所述验证数据中的指标数据或标注数据,分别训练不同使用场景的数据模型,以组成故障诊断模型,其中,所述使用场景包括故障诊断流程、故障排查决策、故障告警。
进一步地,所述利用故障诊断方法,对所述案例数据库的验证数据进行分析,分别确定初始故障诊断模型中指标数据和标注数据的权重,并根据所述验证数据的指标数据或标注数据,分别训练不同使用场景的数据模型,以组成故障诊断模型,包括:
利用故障诊断方法,对所述案例数据库的验证数据进行分析,将基础资源管理系统的资源信息数据抽取出,建立资源实体之间关系图谱;
以机器学习引擎为基础引擎,根据指标数据或者标注数据,建立不同使用场景的数据模型,所述模型包括指标异常波动模型、指标异常波动原因模型、故障诊断流程库、故障排除决策库、预测预警模型和应用服务监控模型。
进一步地,所述当异常指标数据触发故障原因诊断时,基于预先建立的故障诊断模型,根据采集的标注数据中的异常堆栈标注数据,确定故障原因包括:
基于预先建立的故障诊断模型中的数据模型,根据异常指标数据触发故障原因诊断;
基于预先建立的故障诊断模型中的最优故障树模型和关系图谱,根据异常堆栈标注数据进行自检,获取自检结果;
根据历史排查问题经验,计算故障可能存在的所有原因及出现频率,进行相应的检查,获取检查结果;
根据故障的自检结果和应用检查结果,通过现象相似矩阵分析故障原因;
当不能自动分析出正确的故障原因,通知人工介入处理,对更正或增加的异常指标数据进行标注后保存至标注库中。
进一步地,所述基于预先建立的故障诊断模型,根据故障原因确定故障修复方案,并触发故障修复是指基于预先建立的故障诊断模型中的故障排除决策库,根据故障原因及相似案例解决情况确定故障修复方案,并触发修复操作,其中,当所述修复操作需要人工完成时,通过可视化方式展示给操作人员,或者通过短信、微信和邮件中的至少一种通知操作人员。
根据本发明的另一方面,本发明提供一种基于机器学习确定异构系统的故障的系统,所述系统包括:
数据采集单元,其用于定时定频采集异构系统运行时的指标数据和标注数据;
故障确定单元,其用于基于预先建立的故障诊断模型,根据采集的指标数据确定异构系统运行健康状况,并在出现异常指标数据时,触发故障原因诊断和告警;
故障原因单元,其用于当异常指标数据触发故障诊断时,基于预先建立的故障诊断模型,根据采集的标注数据中的异常堆栈标注数据,确定故障原因;
故障修复单元,其用于基于预先建立的故障诊断模型,根据故障原因确定故障修复方案,并触发故障修复。
进一步地,所述系统还包括模型建立单元,其用于基于异构系统的历史数据,通过故障树分析方法建立故障树模型,以及训练不同使用场景下的数据模型,所述模型建立单元包括:
数据库单元,其用于采集异构系统历史的系统故障和重大事件的案例数据,生成案例数据库,并将所述案例数据库中的数据分为训练数据和验证数据;
故障树模型单元,其用于基于所述训练数据,通过故障树分析方法建立初始故障树模型;
故障诊断模型单元,其用于利用故障诊断方法,对所述案例数据库的验证数据进行分析,分别确定故障树模型中指标数据和标注数据的权重,生成最优故障树模型,并根据所述验证数据中的指标数据或标注数据,分别训练不同使用场景的数据模型,以组成故障诊断模型,其中,所述使用场景包括故障诊断流程、故障排查决策、故障告警。
进一步地,所述故障诊断模型单元利用故障诊断方法,对所述案例数据库的验证数据进行分析,分别确定初始故障诊断模型中指标数据和标注数据的权重,并根据所述验证数据的指标数据或标注数据,分别训练不同使用场景的数据模型,以组成故障诊断模型,包括:
利用故障诊断方法,对所述案例数据库的验证数据进行分析,将基础资源管理系统的资源信息数据抽取出,建立资源实体之间关系图谱;
以机器学习引擎为基础引擎,根据指标数据或者标注数据,建立不同使用场景的数据模型,所述模型包括故障诊断流程库、故障排除决策库、预测预警模型、应用服务监控模型。
进一步地,所述故障原因单元包括:
初步自检单元,其用于基于预先建立的故障诊断模型中的数据模型,根据异常指标数据触发故障原因诊断后,基于预先建立的故障诊断模型中的最优故障树模型和关系图谱,根据异常堆栈标注数据进行自检,获取自检结果;
应用检查单元,其用于根据历史排查问题经验,计算故障可能存在的所有原因及出现频率,进行相应的检查,获取检查结果;
故障分析单元,其用于根据故障的自检结果和应用检查结果,通过现象相似矩阵分析故障原因;
人工介入单元,其用于当不能自动分析出正确的故障原因,通知人工介入处理,对更正或增加的异常指标数据进行标注后保存至标注库中。
进一步地,所述故障修复单元基于预先建立的故障诊断模型,根据故障原因确定故障修复方案,并触发故障修复是指基于预先建立的故障诊断模型中的故障排除决策库,根据故障原因及相似案例解决情况确定故障修复方案,并触发修复操作,其中,当所述修复操作需要人工完成时,通过可视化方式展示给操作人员,或者通过短信、微信和邮件中的至少一种通知操作人员。
本发明技术方案提供的基于机器学习确定异构系统的故障的方法和系统通过对历史的系统故障和重大事件的安全进行分析,初步建立案例库数据和故障树模型,并整理分析指标数据和标注数据,分别训练不同使用场景的数据模型;根据采集到的当前指标数据以及数据模型,计算分析系统运行健康状况以及对抓取到的异常指标数据触发故障诊断和告警;根据机器学习建立的关系图谱以及采集的异常堆栈标注数据,自动诊断出故障原因,并根据故障原因确定故障修复方案,触发故障修复。所述方法和系统降低了运维人员对业务专业知识的依赖,有效解决了人工定位问题难、定位问题慢的缺点,同时通过机器学习实现智能快速发现故障并诊断故障产生的原因,自动完成自我修复,大大提高了分布工异构系统运行的安全性和稳定性。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为根据本发明优选实施方式的基于机器学习确定异构系统的故障的方法的流程图;
图2为根据本发明优选实施方式的基于机器学习确定异构系统的故障的系统的结构示意图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
图1为根据本发明优选实施方式的基于机器学习确定异构系统的故障的方法的流程图。如图1所示,本优选实施方式所述的基于机器学习确定异构系统的故障的方法从步骤101开始。
在步骤101,基于异构系统的历史数据,通过故障树分析方法建立故障树模型,以及训练不同使用场景下的数据模型。
在步骤102,定时定频采集异构系统运行时的指标数据和标注数据。
在步骤103,基于预先建立的故障诊断模型,根据采集的指标数据确定异构系统运行健康状况,并在出现异常指标数据时,触发故障原因诊断和告警。
在本优选实施方式中,每天定时定频抓取当前指标数据,如出现异常指标数据和标注数据,则快速触发诊断流程,利用历史指标数据建立的数据模型计算分析实时获取的当前指标数据,获取和分析当前系统运行健康状况,并根据抓取到的异常指标数据触发故障诊断和告警。
故障诊断为自动诊断,通过故障树诊断模型、现象相似矩阵快速得出故障原因。告警可通过短信、微信等形式立刻通知管理员,并将其警告信息可视化展现在系统监控界面,便于管理员排查及恢复。
在步骤104,当异常指标数据触发故障诊断时,基于预先建立的故障诊断模型,根据采集的标注数据中的异常堆栈标注数据,确定故障原因。
在步骤105,基于预先建立的故障诊断模型,根据故障原因确定故障修复方案,并触发故障修复。
优选地,所述基于异构系统的历史数据,通过故障树分析方法建立故障树模型,以及训练不同使用场景下的数据模型包括:
采集异构系统历史的系统故障和重大事件的案例数据,生成案例数据库,并将所述案例数据库中的数据分为训练数据和验证数据;
基于所述训练数据,通过故障树分析方法建立初始故障树模型;
利用故障诊断方法,对所述案例数据库的验证数据进行分析,分别确定故障树模型中指标数据和标注数据的权重,生成最优故障树模型,并根据所述验证数据中的指标数据或标注数据,分别训练不同使用场景的数据模型,以组成故障诊断模型,其中,所述使用场景包括故障诊断流程、故障排查决策、故障告警。
本优选实施方式中,根据系统故障及重大事件形成案例数据库,总结出现的现象和原因,通过故障树分析法,建立故障树模型,故障树模型数据与案例库数据存在联系,案例库数据可划分为案例集Cases、现象集Phenomenons、原因集Reasons三部分,同一案例对应一至多个现象和原因,在诊断时利用案例和现象进行相似性匹配后使用相似案例对应的原因进行诊断。
在建立故障树模型时,先分析案例库的产生某一类故障事件的现象,即获得分析需诊断案例的若干个顶事件和中间事件(即故障现象),例如:当出现“系统无法登录”故障时,将获得下列故障现象:
系统网页无法打开;
系统登陆页面报错无法登陆;
系统登录页面输入账号密码后一直等待,未能进入系统;
系统业务处理过程中长时间等待(大面积或者4分钟以上);
对上述各个事件使用广度搜索策略,按照重要事件的底事件交集出现频次进行排序后作为诊断结果集。
使用案例相似性方法的诊断,如诊断成功则更新底事件频次,如案例未在案例库中则将新案例添加至案例库;如诊断后底事件交集为空或诊断失败则标记各重要事件,跳转至案例相似性方法进行诊断。
优选地,所述利用故障诊断方法,对所述案例数据库的验证数据进行分析,分别确定初始故障诊断模型中指标数据和标注数据的权重,并根据所述验证数据的指标数据或标注数据,分别训练不同使用场景的数据模型,以组成故障诊断模型,包括:
利用故障诊断方法,对所述案例数据库的验证数据进行分析,将基础资源管理系统的资源信息数据抽取出,建立资源实体之间关系图谱;
以机器学习引擎为基础引擎,根据指标数据或者标注数据,建立不同使用场景的数据模型,所述模型包括指标异常波动模型、指标异常波动原因模型、故障诊断流程库、故障排除决策库、预测预警模型和应用服务监控模型。
指标数据主要包括业务指标,系统指标,应用运行指标三大类数据,这些数据反映的是实际生产运行的情况。标注数据是指接收标注服务数据。
分析现有案例,利用故障诊断方法,将基础资源管理系统的资源信息数据抽取出,建立资源实体之间关系图谱,重点对采集的数据清洗处理后,通过AI数据建模系统搭建指标异常波动模型、指标异常波动原因模型、故障排查决策模型。
导致指标异常波动的原因有很多,大致可以分为以下几类:
1、网络连通性原因;
2、应用服务器系统资源占用(包括:磁盘,cpu,io,内存)原因;
3、数据库问题(包括:表空间满、死锁、归档日志空间满等);
4、应用Exception日志;
5、负载均衡异常;
6、防火墙限制;
7、接口服务异常(包括:人口户政接口、人像比对接口等服务)。
不同的故障原因有不同的指标数据,其采集工具也不一样。日志类以Filebeat为主,系统指标类收集采用Open-falcon为主,业务指标通过监听Oracle日志listener.log和警告日志alert和trace文件内容等各类技术手段来实现。
其中Open-falcon包括以下内容:
基础监控:CPU、Load、内存、磁盘、IO、网络相关、内核参数、ss统计输出、端口采集、核心服务的进程存活信息采集、关键业务进程资源消耗、NTP offset采集、DNS解析采集
JVM监控:每个JVM应用的参数,比如GC、类加载、JVM内存、进程、线程,都可以上报给Falcon,而这些参数的获得,都可以通过MxBeans实现。
业务应用监控:对于业务需要监控的接口,比如响应时间等。可以根据业务的需要,上报相关数据到Falcon,并通过Falcon查看结果。
根据标注后的指标异常波动原因,可以建立指标波动原因分类库,然后根据指标波动原因分类库,我们可以快速确定故障排查方向。
(1)以Java为例:当Java应用抛出TimeoutException这个异常时,可以快速确定其异常波动原因有以下几类:
配置不对导致访问不通;
网络原因。
在标注这2项指标异常波动原因后,模型可以快速触发诊断脚本(配置检验脚本和网络检测脚本),对网络进行排查确认。
在很多时候,应用异常堆栈关键词的标注,可以很直观告诉我们故障的原因,通过关键key可以帮助我们快速抽取有用日志内容,快速确认本次故障原因,决策下一步故障诊断检查动作。
(2)以Oralce为例:
当出现无法正常登陆系统,可通过PL/SQL登陆数据库,看是否有抛出登陆异常。一般异常情况可能有:
数据库监听异常;
数据库归档日志爆满;
服务器磁盘空间爆满;
其他原因。
如果是数据监听异常、数据库归档日志爆满问题,登录时会直接报ORA-12541、ORA-00257等错误。如果数据库登录无明显报错信息,排除网络等问题后,直接登录数据库服务器,查看磁盘空间。
当Oracle抛出ORA-00257archiver error异常时,可快速判断为表空间已满或空间不足错误,通过简单删除日志或加大存储空间就能够解决。针对这一类问题,我们还可以设置预警(如使用select*from v$asm_diskgroup监控磁盘组剩余大小),在表空间或归档日志占用控件到达阀值百分比时,预先发出告警通知管理员清理日志或加大存储空间。
当采集数据,系统抛出HibernateJdbcException could not execute batch,可能原因:
无法连接数据库;
表空间爆满;
磁盘组爆满;
其他原因。
使用pl/sql登录数据库,查看是否能正常登陆,如果能正常登陆,查看是否有表空间爆了,注意由于有些表空间设置的是自动扩展,还要查磁盘组可用空间大小。
当采集数据反映保存慢,排查网络问题后,可能原因有:
数据库存在死锁;
有消耗大量资源的语句;
表空间爆了(高水位);
其他原因。
根据配置的脚本,查阻塞的会话、死锁情况和数据库IO情况,从而更快定位问题。
Oracle这些常见的指标异常波动原因,进行关键key的标注,能加快故障诊断的速度及系统恢复速度。
以机器学习引擎(sparkML)为基础引擎,在接收到各类指标数据或是标注数据后,建立不同使用场景的数据模型,包括:故障诊断流程库、故障排除决策库、预测预警模型、应用服务监控模型等。
将KPI关建性指标结果数据推到模型训练模块,通过模型训练,实时在线分析指标,实现各类监督式学习、半监督式学习等。
优选地,所述当异常指标数据触发故障原因诊断时,基于预先建立的故障诊断模型,根据采集的标注数据中的异常堆栈标注数据,确定故障原因包括:
基于预先建立的故障诊断模型中的数据模型,根据异常指标数据触发故障原因诊断;
基于预先建立的故障诊断模型中的最优故障树模型和关系图谱,根据异常堆栈标注数据进行自检,获取自检结果;
根据历史排查问题经验,计算故障可能存在的所有原因及出现频率,进行相应的检查,获取检查结果;
根据故障的自检结果和应用检查结果,通过现象相似矩阵分析故障原因;
当不能自动分析出正确的故障原因,通知人工介入处理,对更正或增加的异常指标数据进行标注后保存至标注库中。
优选地,所述基于预先建立的故障诊断模型,根据故障原因确定故障修复方案,并触发故障修复是指基于预先建立的故障诊断模型中的故障排除决策库,根据故障原因及相似案例解决情况确定故障修复方案,并触发修复操作,其中,当所述修复操作需要人工完成时,通过可视化方式展示给操作人员,或者通过短信、微信和邮件中的至少一种通知操作人员。
根据机器学习建立的关系图谱(如业务、应用、机器关系统图谱)及异常堆栈标注数据,可先快速进行自检(包括:异常内容、系统资源利用情况、业务波动情况等)和获取自检结果。
同时根据运维人员、技术人员发现的故障现象,通过故障事件相关性快速排查问题,定位故障可能存在的原因,并进行下一步检查动作,包括故障影响范围检查、业务影响面检查等。
若是不能自动分析出所述故障原因,则人工介入处理,并对所述异常指标数据进行标注后保存至标注库中。
例如:如果某市用户无法登录系统,根据标注Exception关键词模型库找到故障可能原因,识别出来是网络连接、负载均衡、还是服务器资源的问题,决策故障检查的方向。假设是网络连接的问题,则触发基础的网络通信检查,同时收集网络通信层日志,检查具体网络层的各项指标,获取检查结果。
在足够大的案例库、足够多标注数据库及准确的故障树模型,可自动快速出故障原因。如果在知识库还不够完善的时候,则不能自动分析出故障原因,此时,需要人介入处理,对库中不存在异常指标数据进行人工标注,以便进一步完善关键key标注数据及数据模型。
根据诊断出来的故障原因及相似案例解决方案,确定出故障修复方案,并触发相应的故障修复操作,如需人工操作则通过可视化方式展现给管理员,或通过短信、微信等方式通知管理员。
本优选实施方式所述的基于机器学习确定异构系统的故障的方法和现有技术相比,具有以下有益效果:
1、通过将机器学习模型应用到智能化监控系统中,能够快速发现系统故障,并快速诊断故障产生的原因,同时提供故障处理方案,对于可自动修复故障类型根据其诊断结果和历史案例,实现自我修复动作,如需人工修复的故障,则通过告警通知管理员修复;
2、通过案例库建立、相似案例矩阵及故障树分析方法、机器学习算法等,建立联动多维的故障诊断模型,解决单一规则的监控,不能联动判断识别,负载波动不规则、应用阀值过于死板导致错误率高、存在较多的错报、漏报等问题;
3、根据机器学习建立的应用、业务、服务器三者关系图谱、业务关联图谱,快速提取关键异常信息,并跟据标注数据识别故障产生原因,自动触发工具进行修复。
图2为根据本发明优选实施方式的基于机器学习确定异构系统的故障的系统的结构示意图。如图2所示,本优选实施方式所述的基于机器学习确定异构系统的故障的系统200包括:
模型建立单元201,其用于基于异构系统的历史数据,通过故障树分析方法建立故障树模型,以及训练不同使用场景下的数据模型。
数据采集单元202,其用于定时定频采集异构系统运行时的指标数据和标注数据;
故障确定单元203,其用于基于预先建立的故障诊断模型,根据采集的指标数据确定异构系统运行健康状况,并在出现异常指标数据时,触发故障原因诊断和告警;
故障原因单元204,其用于当异常指标数据触发故障诊断时,基于预先建立的故障诊断模型,根据采集的标注数据中的异常堆栈标注数据,确定故障原因;
故障修复单元205,其用于基于预先建立的故障诊断模型,根据故障原因确定故障修复方案,并触发故障修复。
优选地,所述模型建立单元201包括:
数据库单元211,其用于采集异构系统历史的系统故障和重大事件的案例数据,生成案例数据库,并将所述案例数据库中的数据分为训练数据和验证数据;
故障树模型单元212,其用于基于所述训练数据,通过故障树分析方法建立初始故障树模型;
故障诊断模型单元213,其用于利用故障诊断方法,对所述案例数据库的验证数据进行分析,分别确定故障树模型中指标数据和标注数据的权重,生成最优故障树模型,并根据所述验证数据中的指标数据或标注数据,分别训练不同使用场景的数据模型,以组成故障诊断模型,其中,所述使用场景包括故障诊断流程、故障排查决策、故障告警。
优选地,所述故障诊断模型单元利用故障诊断方法,对所述案例数据库的验证数据进行分析,分别确定初始故障诊断模型中指标数据和标注数据的权重,并根据所述验证数据的指标数据或标注数据,分别训练不同使用场景的数据模型,以组成故障诊断模型,包括:
利用故障诊断方法,对所述案例数据库的验证数据进行分析,将基础资源管理系统的资源信息数据抽取出,建立资源实体之间关系图谱;
以机器学习引擎为基础引擎,根据指标数据或者标注数据,建立不同使用场景的数据模型,所述模型包括故障诊断流程库、故障排除决策库、预测预警模型、应用服务监控模型。
优选地,所述故障原因单元204包括:
初步自检单元241,其用于基于预先建立的故障诊断模型中的数据模型,根据异常指标数据触发故障原因诊断后,基于预先建立的故障诊断模型中的最优故障树模型和关系图谱,根据异常堆栈标注数据进行自检,获取自检结果;
应用检查单元242,其用于根据历史排查问题经验,计算故障可能存在的所有原因及出现频率,进行相应的检查,获取检查结果;
故障分析单元243,其用于根据故障的自检结果和应用检查结果,通过现象相似矩阵分析故障原因;
人工介入单元244,其用于当不能自动分析出正确的故障原因,通知人工介入处理,对更正或增加的异常指标数据进行标注后保存至标注库中。
优选地,所述故障修复单元基于预先建立的故障诊断模型,根据故障原因确定故障修复方案,并触发故障修复是指基于预先建立的故障诊断模型中的故障排除决策库,根据故障原因及相似案例解决情况确定故障修复方案,并触发修复操作,其中,当所述修复操作需要人工完成时,通过可视化方式展示给操作人员,或者通过短信、微信和邮件中的至少一种通知操作人员。
本发明所述基于机器学习确定异构系统的故障的系统对异构系统的故障进行诊断,确定原因并修复的步骤与本发明所述基于机器学习确定异构系统的故障的方法采取的步骤相同,并且达到的技术效果也相同,此处不再赘述。
已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种基于机器学习确定异构系统的故障的方法,其特征在于,所述方法包括:
步骤1、定时定频采集异构系统运行时的指标数据和标注数据;
步骤2、基于预先建立的故障诊断模型,根据采集的指标数据确定异构系统运行健康状况,并在出现异常指标数据时,触发故障原因诊断和告警;
步骤3、当异常指标数据触发故障诊断时,基于预先建立的故障诊断模型,根据采集的标注数据中的异常堆栈标注数据,确定故障原因;
步骤4、基于预先建立的故障诊断模型,根据故障原因确定故障修复方案,并触发故障修复。
2.根据权利要求1所述的方法,其特征在于,所述方法在定时定频采集异构系统运行时的指标数据和标注数据还包括基于异构系统的历史数据,通过故障树分析方法建立故障树模型,以及训练不同使用场景下的数据模型,其中:
采集异构系统历史的系统故障和重大事件的案例数据,生成案例数据库,并将所述案例数据库中的数据分为训练数据和验证数据;
基于所述训练数据,通过故障树分析方法建立初始故障树模型;
利用故障诊断方法,对所述案例数据库的验证数据进行分析,分别确定故障树模型中指标数据和标注数据的权重,生成最优故障树模型,并根据所述验证数据中的指标数据或标注数据,分别训练不同使用场景的数据模型,以组成故障诊断模型,其中,所述使用场景包括故障诊断流程、故障排查决策、故障告警。
3.根据权利要求2所述的方法,其特征在于,所述利用故障诊断方法,对所述案例数据库的验证数据进行分析,分别确定初始故障诊断模型中指标数据和标注数据的权重,并根据所述验证数据的指标数据或标注数据,分别训练不同使用场景的数据模型,以组成故障诊断模型,包括:
利用故障诊断方法,对所述案例数据库的验证数据进行分析,将基础资源管理系统的资源信息数据抽取出,建立资源实体之间关系图谱;
以机器学习引擎为基础引擎,根据指标数据或者标注数据,建立不同使用场景的数据模型,所述模型包括指标异常波动模型、指标异常波动原因模型、故障诊断流程库、故障排除决策库、预测预警模型和应用服务监控模型。
4.根据权利要求3所述的方法,其特征在于,所述当异常指标数据触发故障原因诊断时,基于预先建立的故障诊断模型,根据采集的标注数据中的异常堆栈标注数据,确定故障原因包括:
基于预先建立的故障诊断模型中的数据模型,根据异常指标数据触发故障原因诊断;
基于预先建立的故障诊断模型中的最优故障树模型和关系图谱,根据异常堆栈标注数据进行自检,获取自检结果;
根据历史排查问题经验,计算故障可能存在的所有原因及出现频率,进行相应的检查,获取检查结果;
根据故障的自检结果和应用检查结果,通过现象相似矩阵分析故障原因;
当不能自动分析出正确的故障原因,通知人工介入处理,对更正或增加的异常指标数据进行标注后保存至标注库中。
5.根据权利要求1所述的方法,其特征在于,所述基于预先建立的故障诊断模型,根据故障原因确定故障修复方案,并触发故障修复是指基于预先建立的故障诊断模型中的故障排除决策库,根据故障原因及相似案例解决情况确定故障修复方案,并触发修复操作,其中,当所述修复操作需要人工完成时,通过可视化方式展示给操作人员,或者通过短信、微信和邮件中的至少一种通知操作人员。
6.一种基于机器学习确定异构系统的故障的系统,其特征在于,所述系统包括:
数据采集单元,其用于定时定频采集异构系统运行时的指标数据和标注数据;
故障确定单元,其用于基于预先建立的故障诊断模型,根据采集的指标数据确定异构系统运行健康状况,并在出现异常指标数据时,触发故障原因诊断和告警;
故障原因单元,其用于当异常指标数据触发故障诊断时,基于预先建立的故障诊断模型,根据采集的标注数据中的异常堆栈标注数据,确定故障原因;
故障修复单元,其用于基于预先建立的故障诊断模型,根据故障原因确定故障修复方案,并触发故障修复。
7.根据权利要求6所述的系统,其特征在于,所述系统还包括模型建立单元,其用于基于异构系统的历史数据,通过故障树分析方法建立故障树模型,以及训练不同使用场景下的数据模型,所述模型建立单元包括:
数据库单元,其用于采集异构系统历史的系统故障和重大事件的案例数据,生成案例数据库,并将所述案例数据库中的数据分为训练数据和验证数据;
故障树模型单元,其用于基于所述训练数据,通过故障树分析方法建立初始故障树模型;
故障诊断模型单元,其用于利用故障诊断方法,对所述案例数据库的验证数据进行分析,分别确定故障树模型中指标数据和标注数据的权重,生成最优故障树模型,并根据所述验证数据中的指标数据或标注数据,分别训练不同使用场景的数据模型,以组成故障诊断模型,其中,所述使用场景包括故障诊断流程、故障排查决策、故障告警。
8.根据权利要求7所述的系统,其特征在于,所述故障诊断模型单元利用故障诊断方法,对所述案例数据库的验证数据进行分析,分别确定初始故障诊断模型中指标数据和标注数据的权重,并根据所述验证数据的指标数据或标注数据,分别训练不同使用场景的数据模型,以组成故障诊断模型,包括:
利用故障诊断方法,对所述案例数据库的验证数据进行分析,将基础资源管理系统的资源信息数据抽取出,建立资源实体之间关系图谱;
以机器学习引擎为基础引擎,根据指标数据或者标注数据,建立不同使用场景的数据模型,所述模型包括故障诊断流程库、故障排除决策库、预测预警模型、应用服务监控模型。
9.根据权利要求8所述的系统,其特征在于,所述故障原因单元包括:
初步自检单元,其用于基于预先建立的故障诊断模型中的数据模型,根据异常指标数据触发故障原因诊断后,基于预先建立的故障诊断模型中的最优故障树模型和关系图谱,根据异常堆栈标注数据进行自检,获取自检结果;
应用检查单元,其用于根据历史排查问题经验,计算故障可能存在的所有原因及出现频率,进行相应的检查,获取检查结果;
故障分析单元,其用于根据故障的自检结果和应用检查结果,通过现象相似矩阵分析故障原因;
人工介入单元,其用于当不能自动分析出正确的故障原因,通知人工介入处理,对更正或增加的异常指标数据进行标注后保存至标注库中。
10.根据权利要求6所述的系统,其特征在于,所述故障修复单元基于预先建立的故障诊断模型,根据故障原因确定故障修复方案,并触发故障修复是指基于预先建立的故障诊断模型中的故障排除决策库,根据故障原因及相似案例解决情况确定故障修复方案,并触发修复操作,其中,当所述修复操作需要人工完成时,通过可视化方式展示给操作人员,或者通过短信、微信和邮件中的至少一种通知操作人员。
CN201911390574.3A 2019-12-30 2019-12-30 一种基于机器学习确定异构系统的故障的方法和系统 Pending CN111209131A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911390574.3A CN111209131A (zh) 2019-12-30 2019-12-30 一种基于机器学习确定异构系统的故障的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911390574.3A CN111209131A (zh) 2019-12-30 2019-12-30 一种基于机器学习确定异构系统的故障的方法和系统

Publications (1)

Publication Number Publication Date
CN111209131A true CN111209131A (zh) 2020-05-29

Family

ID=70783414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911390574.3A Pending CN111209131A (zh) 2019-12-30 2019-12-30 一种基于机器学习确定异构系统的故障的方法和系统

Country Status (1)

Country Link
CN (1) CN111209131A (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967623A (zh) * 2020-08-12 2020-11-20 国网四川省电力公司信息通信公司 一种具备智能运维功能的通信运行管理系统
CN111988167A (zh) * 2020-07-21 2020-11-24 合肥爱和力人工智能技术服务有限责任公司 一种基于工业互联网机理模型的故障分析方法及设备
CN111985558A (zh) * 2020-08-19 2020-11-24 安徽蓝杰鑫信息科技有限公司 一种电能表异常诊断方法及其系统
CN112380042A (zh) * 2020-11-17 2021-02-19 北京中亦安图科技股份有限公司 数据库软件的故障定位与分析方法、装置及存储介质
CN112492567A (zh) * 2020-11-19 2021-03-12 江苏恒宝智能系统技术有限公司 一种应急指挥通信中的故障分析和解决方法及装置
CN112559237A (zh) * 2021-02-19 2021-03-26 北京必示科技有限公司 运维系统排障方法、装置、服务器和存储介质
CN112596936A (zh) * 2020-12-04 2021-04-02 光大科技有限公司 系统故障原因的确定方法及装置、存储介质、电子装置
CN112783682A (zh) * 2021-02-01 2021-05-11 福建多多云科技有限公司 一种基于云手机服务的异常自动修复方法
CN112783865A (zh) * 2021-01-29 2021-05-11 杭州优云软件有限公司 一种半监督人机结合的运维故障库生成方法及系统
CN112801537A (zh) * 2021-02-22 2021-05-14 西安热工研究院有限公司 一种发电企业非停事故分析方法、系统、介质及设备
CN112860472A (zh) * 2021-02-05 2021-05-28 建信金融科技有限责任公司 系统故障位置确定方法、装置、电子设备及存储介质
CN112874374A (zh) * 2021-02-22 2021-06-01 长春汽车工业高等专科学校 一种基于plc控制的电动汽车自动换电装置监测系统
CN113010394A (zh) * 2021-03-01 2021-06-22 北京中大科慧科技发展有限公司 一种用于数据中心的机房故障检测方法
WO2021259273A1 (zh) * 2020-06-24 2021-12-30 中兴通讯股份有限公司 树模型构建方法、装置、设备和存储介质
CN113902745A (zh) * 2021-12-10 2022-01-07 山东捷瑞数字科技股份有限公司 基于图像处理的商用车变速箱精准故障识别方法及装置
CN114880151A (zh) * 2022-04-25 2022-08-09 北京科杰科技有限公司 人工智能运维方法
CN115619383A (zh) * 2022-12-19 2023-01-17 中国空气动力研究与发展中心超高速空气动力研究所 一种基于知识图谱的故障诊断方法、装置及计算设备
CN116047913A (zh) * 2023-02-15 2023-05-02 南京为先科技有限责任公司 一种用于中和真空汽提脱二噁烷工艺的控制系统和方法
CN116431378A (zh) * 2023-06-13 2023-07-14 成都实时技术股份有限公司 一种产品嵌入式系统故障数据分析方法
CN116484268A (zh) * 2023-06-21 2023-07-25 西安黑石智能科技有限公司 基于机器学习的智能化工业设备故障诊断系统
CN116523722A (zh) * 2023-06-30 2023-08-01 江西云绿科技有限公司 一种具备机器学习能力的环境监测分析系统
CN117290764A (zh) * 2023-11-23 2023-12-26 湖南省交通科学研究院有限公司 基于数据特征分析的治超系统故障智能识别及诊断的方法
CN117290149A (zh) * 2023-11-27 2023-12-26 宁德时代新能源科技股份有限公司 主控模块的复位故障定位方法、装置、设备、系统和介质
CN117331793A (zh) * 2023-11-27 2024-01-02 南京掌控网络科技有限公司 一种自动值守的进程监控方法与系统
CN117376108A (zh) * 2023-12-07 2024-01-09 深圳市亲邻科技有限公司 一种物联网设备智能运维方法与系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740626A (zh) * 2016-02-01 2016-07-06 华中农业大学 一种基于机器学习的药物活性预测方法
CN109783500A (zh) * 2019-01-21 2019-05-21 北京邮电大学 一种基于故障树和案例相似性的故障诊断方法
CN109800127A (zh) * 2019-01-03 2019-05-24 众安信息技术服务有限公司 一种基于机器学习的系统故障诊断智能化运维方法及系统
WO2019142331A1 (ja) * 2018-01-19 2019-07-25 株式会社日立製作所 障害予測システムおよび障害予測方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740626A (zh) * 2016-02-01 2016-07-06 华中农业大学 一种基于机器学习的药物活性预测方法
WO2019142331A1 (ja) * 2018-01-19 2019-07-25 株式会社日立製作所 障害予測システムおよび障害予測方法
CN109800127A (zh) * 2019-01-03 2019-05-24 众安信息技术服务有限公司 一种基于机器学习的系统故障诊断智能化运维方法及系统
CN109783500A (zh) * 2019-01-21 2019-05-21 北京邮电大学 一种基于故障树和案例相似性的故障诊断方法

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021259273A1 (zh) * 2020-06-24 2021-12-30 中兴通讯股份有限公司 树模型构建方法、装置、设备和存储介质
CN111988167A (zh) * 2020-07-21 2020-11-24 合肥爱和力人工智能技术服务有限责任公司 一种基于工业互联网机理模型的故障分析方法及设备
CN111967623A (zh) * 2020-08-12 2020-11-20 国网四川省电力公司信息通信公司 一种具备智能运维功能的通信运行管理系统
CN111985558A (zh) * 2020-08-19 2020-11-24 安徽蓝杰鑫信息科技有限公司 一种电能表异常诊断方法及其系统
CN112380042B (zh) * 2020-11-17 2024-04-12 北京中亦安图科技股份有限公司 数据库软件的故障定位与分析方法、装置及存储介质
CN112380042A (zh) * 2020-11-17 2021-02-19 北京中亦安图科技股份有限公司 数据库软件的故障定位与分析方法、装置及存储介质
CN112492567A (zh) * 2020-11-19 2021-03-12 江苏恒宝智能系统技术有限公司 一种应急指挥通信中的故障分析和解决方法及装置
CN112596936A (zh) * 2020-12-04 2021-04-02 光大科技有限公司 系统故障原因的确定方法及装置、存储介质、电子装置
CN112783865A (zh) * 2021-01-29 2021-05-11 杭州优云软件有限公司 一种半监督人机结合的运维故障库生成方法及系统
CN112783682A (zh) * 2021-02-01 2021-05-11 福建多多云科技有限公司 一种基于云手机服务的异常自动修复方法
CN112783682B (zh) * 2021-02-01 2022-02-22 福建多多云科技有限公司 一种基于云手机服务的异常自动修复方法
CN112860472A (zh) * 2021-02-05 2021-05-28 建信金融科技有限责任公司 系统故障位置确定方法、装置、电子设备及存储介质
CN112559237A (zh) * 2021-02-19 2021-03-26 北京必示科技有限公司 运维系统排障方法、装置、服务器和存储介质
CN112801537A (zh) * 2021-02-22 2021-05-14 西安热工研究院有限公司 一种发电企业非停事故分析方法、系统、介质及设备
CN112874374A (zh) * 2021-02-22 2021-06-01 长春汽车工业高等专科学校 一种基于plc控制的电动汽车自动换电装置监测系统
CN112801537B (zh) * 2021-02-22 2023-04-18 西安热工研究院有限公司 一种发电企业非停事故分析方法、系统、介质及设备
CN113010394A (zh) * 2021-03-01 2021-06-22 北京中大科慧科技发展有限公司 一种用于数据中心的机房故障检测方法
CN113010394B (zh) * 2021-03-01 2024-04-16 北京中大科慧科技发展有限公司 一种用于数据中心的机房故障检测方法
CN113902745A (zh) * 2021-12-10 2022-01-07 山东捷瑞数字科技股份有限公司 基于图像处理的商用车变速箱精准故障识别方法及装置
CN114880151A (zh) * 2022-04-25 2022-08-09 北京科杰科技有限公司 人工智能运维方法
CN115619383A (zh) * 2022-12-19 2023-01-17 中国空气动力研究与发展中心超高速空气动力研究所 一种基于知识图谱的故障诊断方法、装置及计算设备
CN116047913A (zh) * 2023-02-15 2023-05-02 南京为先科技有限责任公司 一种用于中和真空汽提脱二噁烷工艺的控制系统和方法
CN116047913B (zh) * 2023-02-15 2023-10-03 南京为先科技有限责任公司 一种用于中和真空汽提脱二噁烷工艺的控制系统和方法
CN116431378B (zh) * 2023-06-13 2023-08-18 成都实时技术股份有限公司 一种产品嵌入式系统故障数据分析方法
CN116431378A (zh) * 2023-06-13 2023-07-14 成都实时技术股份有限公司 一种产品嵌入式系统故障数据分析方法
CN116484268A (zh) * 2023-06-21 2023-07-25 西安黑石智能科技有限公司 基于机器学习的智能化工业设备故障诊断系统
CN116484268B (zh) * 2023-06-21 2023-09-05 西安黑石智能科技有限公司 基于机器学习的智能化工业设备故障诊断系统
CN116523722A (zh) * 2023-06-30 2023-08-01 江西云绿科技有限公司 一种具备机器学习能力的环境监测分析系统
CN117290764A (zh) * 2023-11-23 2023-12-26 湖南省交通科学研究院有限公司 基于数据特征分析的治超系统故障智能识别及诊断的方法
CN117290764B (zh) * 2023-11-23 2024-02-09 湖南省交通科学研究院有限公司 基于数据特征分析的治超系统故障智能识别及诊断的方法
CN117331793B (zh) * 2023-11-27 2024-02-23 南京掌控网络科技有限公司 一种自动值守的进程监控方法与系统
CN117331793A (zh) * 2023-11-27 2024-01-02 南京掌控网络科技有限公司 一种自动值守的进程监控方法与系统
CN117290149A (zh) * 2023-11-27 2023-12-26 宁德时代新能源科技股份有限公司 主控模块的复位故障定位方法、装置、设备、系统和介质
CN117376108A (zh) * 2023-12-07 2024-01-09 深圳市亲邻科技有限公司 一种物联网设备智能运维方法与系统
CN117376108B (zh) * 2023-12-07 2024-03-01 深圳市亲邻科技有限公司 一种物联网设备智能运维方法与系统

Similar Documents

Publication Publication Date Title
CN111209131A (zh) 一种基于机器学习确定异构系统的故障的方法和系统
KR101856543B1 (ko) 인공지능 기반의 장애 예측 시스템
CN109800127A (zh) 一种基于机器学习的系统故障诊断智能化运维方法及系统
CN106649040A (zh) 一种Weblogic中间件性能自动监控方法及装置
Tang et al. An integrated framework for optimizing automatic monitoring systems in large IT infrastructures
CN101848477A (zh) 一种故障诊断方法及系统
CN110162445A (zh) 基于主机日志及性能指标的主机健康评价方法及装置
CN112286771A (zh) 一种针对全域资源监控的告警方法
CN104574219A (zh) 电网业务信息系统运行工况的监测预警方法及系统
CN113282635A (zh) 一种微服务系统故障根因定位方法及装置
CN113946499A (zh) 一种微服务链路跟踪及性能分析方法、系统、设备及应用
CN103049365B (zh) 信息与应用资源运行状态监控及评价方法
CN108337108A (zh) 一种基于关联分析的云平台故障自动化定位方法
CN112380089A (zh) 一种数据中心监控预警方法及系统
CN115809183A (zh) 基于知识图谱的信创终端故障发现及处置的方法
CN115048361A (zh) 一种基于大数据的数据库运维风险预警系统及方法
CN115114064A (zh) 一种微服务故障分析方法、系统、设备及存储介质
CN116755992A (zh) 一种基于OpenStack云计算的日志分析方法及系统
CN116468423A (zh) 一种运维应急协同方法、系统和终端设备
CN114500178B (zh) 一种自运维的智慧物联网关
CN112131090B (zh) 业务系统性能监控方法及装置、设备及介质
CN109558258B (zh) 一种分布式系统根源故障定位的方法及装置
CN112860527A (zh) 应用服务器的故障监测方法及装置
CN113037550B (zh) 一种服务故障监控方法、系统及计算机可读存储介质
CN109614330A (zh) 存储系统业务测试方法、装置、系统、存储控制器及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination