CN112152830B - 一种智能的故障根因分析方法及系统 - Google Patents

一种智能的故障根因分析方法及系统 Download PDF

Info

Publication number
CN112152830B
CN112152830B CN201910575025.7A CN201910575025A CN112152830B CN 112152830 B CN112152830 B CN 112152830B CN 201910575025 A CN201910575025 A CN 201910575025A CN 112152830 B CN112152830 B CN 112152830B
Authority
CN
China
Prior art keywords
fault
alarm
index
analysis
fault alarm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910575025.7A
Other languages
English (en)
Other versions
CN112152830A (zh
Inventor
刘鹏
邓春宇
王晓辉
季知祥
蔡常雨
王亚雷
金雪彬
刘镇京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
Original Assignee
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, China Electric Power Research Institute Co Ltd CEPRI filed Critical State Grid Corp of China SGCC
Priority to CN201910575025.7A priority Critical patent/CN112152830B/zh
Publication of CN112152830A publication Critical patent/CN112152830A/zh
Application granted granted Critical
Publication of CN112152830B publication Critical patent/CN112152830B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种智能的故障根因分析方法及系统,包括:对接收到的故障报警进行根因分析,获得故障排查的范围;基于故障排查的范围和故障溯源图谱,确定故障发生的原因;基于故障发生的原因从运维知识库中获取所述故障对应的解决方案。本发明提供的技术方案可以快速定位故障原因,并推荐解决方案,极大地减少了IT运维人员的负担,提高运维效率,保证系统的正常运行。

Description

一种智能的故障根因分析方法及系统
技术领域
本发明涉及电力系统的运维领域,具体涉及一种智能的故障根因分析方法及系统。
背景技术
随着电力系统规模和复杂程度的提高,所面临的运维环境越来越复杂,伴随泛在物联网的推广,电力行业将会加速应用移动互联、人工智能等现代信息技术、先进通信技术,实现电力系统各环节万物互联、人机交互,具有状态全面感知、信息高效处理、应用便捷灵活特征的智慧服务系统。这种趋势的发展对IT运维提出了更高的要求,传统的运维技术和产品难以应对如此庞大、复杂的综合服务系统;网络、服务器、软件应用系统之间错综的关联关系,使得IT管理和运维人员面对最终用户反映的应用慢、系统中断等问题时,无法快速准确的定位问题根源,让企业数据中心的管理和维护面临前所未有的挑战。
IT运维人员接到报警以后需要找到问题的起因,从众多应用系统、成千上万个指标和机器里找出问题起因不是一件很容易的事。传统的运维做法是依靠IT运维人员经验和专业知识手工进行排查,包括遍历各种日志和运行指标,这种方法耗时耗力,而且非常依靠运维人员的专业知识经验,以及他们对这个服务的熟悉程度,即使是有经验的运维人员,一般不熟悉的报警也要花上几个小时或者更长时间来定位故障。
发明内容
为了解决现有技术中随着应用系统和服务的增多,以及他们之间关系越来越复杂,当系统出现故障时寻找导致故障发生的原因需要耗费大量的时间,同时对运维人员的要求也非常高,因此本发明提供一种智能的故障根因分析方法及系统。
本发明提供的技术方案是:一种智能的根因分析方法,包括:
对接收到的故障报警进行根因分析,获得故障排查的范围;
基于故障排查的范围和故障溯源图谱,确定故障发生的原因;
基于故障发生的原因从运维知识库中获取所述故障对应的解决方案。
优选的,所述对接收到的故障报警进行根因分析,获得故障排查的范围,包括:
对接收到的故障报警进行上下游关联分析,获的所述故障报警服务所在的所有服务器以及各服务器中与故障报警相关的服务状态和上下游服务状态;
对各服务器的进程性能数据进行高消耗进程分析,获的资源消耗超过阈值的进程信息;
对各服务器进行事件分析,获得当前故障报警发生时在设定时间内的操作;
在各服务器中对所述故障报警的指标采用动态时间规整算法进行指标关联分析,获取曲线变化相似的指标;
在各服务器的日志中进行报警关联日志分析,获取在设定时间内日志中的错误信息;
基于所述各服务器中与故障报警相关的服务状态和上下游服务状态、资源消耗超过阈值的进程信息、当前故障报警发生时在设定时间内的操作、曲线变化相似的指标和在设定时间内日志中的错误信息,确定故障排查的范围。
优选的,所述对接收到的故障报警进行上下游关联分析,获的所述故障报警服务所在的所有服务器以及各服务器中与故障报警相关的服务状态和上下游服务状态,包括:
基于所述故障报警和预先构建的服务依赖拓扑关系进行上下游关联分析,获的所述故障报警服务所在的所有服务器;
在各服务器中获取与故障报警相关的服务状态和上下游服务状态;
其中,所述服务依赖拓扑关系的构建包括:利用探针自动发现系统的服务类型和具体部署在哪些服务器;把每种服务当作一个节点,每个节点可以展开多个服务所在的服务器的情况,以及服务与服务之间的依赖关系。
优选的,所述进程性能数据,包括:
进程名称、启动时间、CPU使用率、内存使用率和IO信息。
优选的,所述当前故障报警发生时在设定时间内的操作,包括:
服务重启、机器重启、内存溢出自保护事件、可疑的编辑命令行操作、可疑的终止进程命令行操作、可疑的开始/停止命令行操作和/或可疑的删除命令行操作。
优选的,所述在各服务器中对所述故障报警的指标采用动态时间规整算法进行指标关联分析,获取曲线变化相似的指标,包括:
在各服务器中分别获取故障报警发生前在预设的第一时间内所有的指标;
将所述故障报警发生前在预设的第一时间内所有的指标以时间为轴绘制报警相关指标曲线;
基于所述故障报警的指标绘制报警指标曲线;
基于所述报警相关指标曲线和报警指标曲线采用动态时间规整算法进行指标关联分析,获得指标的线性相关性;
基于所述指标的线性相关性,获取曲线变化相似的指标。
优选的,按下式计算所述指标的线性相关性:
其中:r:指标的线性相关性;X:报警相关指标的时序数据;Y:故障报警指标的时序数据;Xi:报警相关指标时序数据中第i个时间点的值;报警相关指标序列的平均值;Yi:故障报警指标时序数据中第i个时间点的值;/>故障报警指标序列的平均值;SX:报警相关指标序列的标准方差;SY:故障报警指标序列的标准方差。
优选的,所述基于故障排查的范围和故障溯源图谱,确定故障发生的原因,包括:
基于故障排查的范围中与故障报警相关的服务状态和上下游服务状态、资源消耗超过阈值的进程信息、当前故障报警发生时在设定时间内的操作、曲线变化相似的指标和在设定时间内日志中的错误信息,从故障溯源图谱中获取故障报警的根因;
当未获取到故障报警的根因时,通过分析模式反馈给运维人员,并将运维人员输入的故障报警根因与故障报警建立因果关系进行存储;
其中,所述故障溯源图谱中存储指标、日志、进程之间的因果关系。
优选的,所述运维知识库中故障对应的解决方案,包括:
故障对应的历史解决方案和基于网络获取的解决方案。
优选的,所述故障报警的来源,包括:
规则报警和自动发现异常;
所述规则报警为,为待监测指标设置阈值,当超过阈值时发生报警;
所述自动异常发现为,通过查询待监测指标的历史数据预测未来设定周期内的趋势,并将历史数据与预测趋势进行对比获得差值,当所述差值超过门槛值时发生报警。
基于同一发明构思,本发明还提供了一种智能的根因分析系统,包括:
根因分析模块,用于对接收到的故障报警进行根因分析,获得故障排查的范围;
故障溯源图谱模块,用于基于故障排查的范围和故障溯源图谱,确定故障发生的原因;
运维知识库模块,用于基于故障发生的原因从运维知识库中获取所述故障对应的解决方案。
优选的,所述根因分析模块,包括:
上下游关联分析单元,用于对接收到的故障报警进行上下游关联分析,获的所述故障报警服务所在的所有服务器以及各服务器中与故障报警相关的服务状态和上下游服务状态;
高消耗进程分析单元,用于对各服务器的进程性能数据进行高消耗进程分析,获的资源消耗超过阈值的进程信息;
事件分析单元,用于对各服务器进行事件分析,获得当前故障报警发生时在设定时间内的操作;
指标关联分析单元,用于在各服务器中对所述故障报警的指标采用动态时间规整算法进行指标关联分析,获取曲线变化相似的指标;
日志分析单元,用于在各服务器的日志中进行报警关联日志分析,获取在设定时间内日志中的错误信息;
根因分析单元,用于基于所述各服务器中与故障报警相关的服务状态和上下游服务状态、资源消耗超过阈值的进程信息、当前故障报警发生时在设定时间内的操作、曲线变化相似的指标和在设定时间内日志中的错误信息,确定故障排查的范围。
与现有技术相比,本发明的有益效果为:
本发明提供的技术方案,对接收到的故障报警进行根因分析,获得故障排查的范围;基于故障排查的范围和故障溯源图谱,确定故障发生的原因;基于故障发生的原因从运维知识库中获取所述故障对应的解决方案,可以快速定位故障原因,并推荐解决方案,极大地减少了IT运维人员的负担,提高运维效率,保证系统的正常运行。
本发明提供的技术方案,通过探针的方式实现了运维数据的统一收集,将分散的运维数据统一集中存储管理,打通运维数据孤岛,实现全链路的数据整合分析;通过不断挖掘运维数据的价值,为业务运营需要提供强力支撑;统一集中管理的方式,打破了传统运维分散而独立的现状,便于建立统一的一体化的标准运维流程、便于知识的传承和共享、运维人员的培训、资源协调和工作分配。
本发明提供了一套高效的排障流程,采用先进的机器学习算法,帮助运维工程师快速分析定位故障,节省了时间、人力成本,提升了工作效率,并可以通过反馈,帮助企业建立自身的故障数据模型,形成可操作的解决方案,便于后进员工快速熟悉系统并投入实际工作中;该系统采用模块化开发,提供标准的API接口,便于第三方系统和新功能引用,为后续新技术的发展演进奠定了基础,可以作为长期运维的有效手段进行维护和扩充,减少重复建设带来的成本增加。
附图说明
图1本发明提供的一种智能的故障根因分析方法流程图;
图2为本发明提供的故障根因分析方法的详细流程图;
图3为本发明提供的根因分析的流程图。
具体实施方式
为了更好地理解本发明,下面结合说明书附图和实例对本发明的内容做进一步的说明。
实施例1
为了克服现有的运维困境,本发明提出了一种基于人工智能的根因分析方法及系统,充分利用探针收集到的各种的海量的运行参数,采用数据挖掘的方法进行各种分析,利用运维大数据分析被监控系统的健康情况,自动识别指标变化规律,自动发现异常指标并报警,同时触发根因分析,快速定位故障原因,并推荐解决方案,极大地减少了IT运维人员的负担,提高运维效率,保证系统的正常运行。
本发明目的是提供一种基于人工智能的根因分析方法及系统,来实现对运维数据的集中采集、统一存储、多维度整体分析,通过大规模数据分析,实现故障的即时预警,通过上下游关联分析、引发报警的高消耗进程分析、事件分析、指标关联分析、关联日志分析实现根因快速定位,并结合故障知识图谱、运维知识库推荐解决方案,提供分析模式进行人工反馈,实现反馈式学习,提升根因定位的准确率,从而大幅提升工作效率,节省运维成本。
如图1所示,本发明提供的一种智能的根因分析方法,包括:
步骤S1、对接收到的故障报警进行根因分析,获得故障排查的范围;
步骤S2、基于故障排查的范围和故障溯源图谱,确定故障发生的原因;
步骤S3、基于故障发生的原因从运维知识库中获取所述故障对应的解决方案。
如图2所示,基于人工智能的根因分析方法核心思路是利用指标关联分析,发现事件发生的时间顺序,和事件的显示关联,此处的事件定义范围广泛,包含告警、指标异常等,表示一个状态变化,所述的显示关联,特指指标的曲线相似度;指标关联分析用于挖掘分析指标之间潜在的相互作用和影响范围,帮助缩小故障排查的范围;关联分析不能确定事件之间的因果关系,因此通过故障溯源图谱来表明事件与事件之间的因果关系,该图谱通过预置和用户反馈的方式创建,在故障发生时,可以通过故障溯源图谱,快速发现曾经发生过的同类问题,并根据故障溯源图谱迅速定位根因,结合运维知识库推荐解决方案;为了避免误报,因此利用上下游关联关系,即服务拓扑图,将没有关联关系的多个服务偶然发生的相似事件排除在外,尽可能排除干扰因子。
步骤S2、基于故障排查的范围和故障溯源图谱,确定故障发生的原因,包括:
如图3所示,根因分析同时进行上下游关联、高消耗进程分析、引起报警的事件分析、指标关联分析以及日志分析,力图发现更多关于当前告警的信息,提供给用户更精准的信息,此处所述事件特指机器/服务启停、内存溢出自保护等事件。
所述上下游关联,即服务依赖拓扑关系,它利用探针自动发现系统的服务类型和具体部署在哪些服务器。根据这些信息,运维人员可以建立一个服务拓扑图。服务拓扑图把每种服务当作一个节点。每个节点可以展开多个服务所在的服务器的情况,包括OS的性能指标和对应服务的性能指标,并展示服务与服务之间的依赖关系。在大规模复杂场景下,根据服务依赖拓扑关系,可以快速圈定一个小范围,将与本服务告警无关的服务及其相关的指标、日志、进程等数据排除在分析之外,缩小排障的范围,从而提升故障分析的效率。
所述高消耗进程分析,它利用系统的资源消耗功能模块,对当前发生告警的主机的topN进程进行分析。
所述引起报警的事件,主要是指系统通过探针采集的数据进行分析,判断主机、服务是否重启,是否有内存溢出自保护时间,是否有包含start/stop命令行操作。
所述的指标关联分析采用DTW(Dynamic Time Warping)算法,对事件发生的事件顺序以及事件的显示关联进行分析,所谓显示关联即曲线的相似度,关联分析亦及根据时间顺序和曲线相似度对指标进行分析,分析结果通过前端呈现,提供服务和机器视角,快速查看关联到的指标属于哪些服务或分布在哪些主机上,将数千上万的指标数据集中在一定的范围内,达到快速缩小故障排查范围的目的,提升故障排查效率。
所述关联分析基于动态时间规整(Dynamic Time Warping,DTW)算法进行优化,对事件发生的时间顺序以及事件的显示关联进行分析,所谓显示关联即指标曲线的相似度,关联分析亦及根据时间顺序和曲线相似度对指标进行分析,分析结果通过前端呈现,提供服务和机器视角,快速查看关联到的指标属于哪些服务或分布在哪些主机上,同时可以通过调整相似度来扩大或缩小关联查找范围。关联分析是基于时间维度和指标相似度的关联分析,其算法设计如下:
(1)基于时间维度,只考虑故障发生前的事件为根因;
(2)基于时间维度,只考虑故障发生前的相似指标;
(3)基于指标相似度按下式计算线性相关:
其中:r是相关性,取值范围是-1到1;r值越靠近-1或者1表示越相关。X,Y:代表两个不同的时序数据;Xi是具体第i个时间点的值,是X序列的平均值;/>是Y序列的平均值;SX是X序列的标准方差;SY是Y序列的标准方差。
在本发明中X表示报警相关指标的时序数据,Y表示故障报警指标的时序数据。
所述日志分析,提供日志全文检索,聚合以及对比功能,通过时间切片,默认查找告警时段出现Error/Exception的日志信息。
所述的故障溯源图谱提供分析模式用于运维人员反馈故障的原因,并保存到系统的后台。通过分析这些反馈,该系统建立一个故障溯源图谱(Graph),展示指标、日志、进程等之间的因果关系。诊断分析时,将直接读取已有的故障溯源图谱,快速确定当前告警的历史根因,并结合运维知识库将曾经反馈的方案推荐出来,以便运维人员及时排障。
所述运维知识库,可对运维知识条目进行集中、统一的管理,运维知识条目一部分通过爬虫从专业的论坛获取,一部分通过运维工程师自行创建或反馈的解决方案形成。
人工智能根因分析方法包括上下游关联、高消耗进程分析、引起报警的事件分析、报警关联指标分析及报警关联日志分析,层层递进,追溯根因,经过每个阶段分析之后,如果还未找到根因,则继续下一个阶段分析,直至找到根因为止。当告警发生后,诊断分析通过上下游关联,发现与告警相关的服务状态及其上下游服务状态,查找本机的高消耗进程数据,获取被监控系统的事件信息,对指标进行关联分析缩小排查范围,通过日志分析查找错误信息,经过以上分析,获得该告警的故障排障范围,与历史反馈形成故障溯源图谱进行匹配,最后推荐出匹配度较高的解决方案,如未有匹配的故障告警,则进入分析模式进行人工反馈,将人工反馈的故障根因与故障告警建立因果关系并保存到故障溯源图谱中,将故障溯源图谱和运维知识库向运维人员展示。
上下游关联通过故障溯源图谱分析,发现与当前报警相关的服务,以及该服务的状态,服务状态分为正常、警告或严重,同时分析与该服务存在上下游关联的服务及其状态,最终以故障溯源图谱的形式展示给用户,并通过颜色标记来表示服务状态,绿色为正常,黄色为警告、红色为严重。
高消耗进程分析报警所在机器的进程性能数据,包括该进程的名称、启动时间、CPU使用率、内存使用率、IO信息,最终输出资源消耗较高的进程信息。
引起报警的事件分析,输出当前告警发生时前后五分钟内的服务重启、机器重启、内存溢出自保护事件、以及可疑的编辑命令行操作、可疑的终止进程命令行操作、可疑的start/stop命令行操作、可疑的删除命令行操作。
报警关联指标分析将全指标与告警指标进行匹配,获取故障发生前一段时间内曲线变化相似的指标,并输出到前端展示,包括指标名称、指标所在机器、所属服务等信息。
报警关联日志分析输出告警发生前后五分钟内,包含error/exception的日志,或本告警历史反馈过的日志信息。
本发明构思首先,通过探针的方式实现了运维数据的统一收集,将分散的运维数据统一集中存储管理,打通运维数据孤岛,实现全链路的数据整合分析;通过不断挖掘运维数据的价值,为业务运营需要提供强力支撑;统一集中管理的方式,打破了传统运维分散而独立的现状,便于建立统一的一体化的标准运维流程、便于知识的传承和共享、运维人员的培训、资源协调和工作分配;其次,本发明提供的高效排障流程,采用先进的机器学习算法,帮助运维工程师快速分析定位故障,节省了时间、人力成本,提升工作效率,并可以通过反馈,帮助企业建立自身的故障数据模型,形成可操作的解决方案,便于后进员工快速熟悉系统并投入实际工作中;该系统采用模块化开发,提供标准的API接口,便于第三方系统和新功能引用,为后续新技术的发展演进奠定了基础,可以作为长期运维的有效手段进行维护和扩充,减少重复建设带来的成本增加。
本实施例以Hbase master服务异常为例,通过本发明提供的技术方案进行处理,包括:
创建报警名称为《Hbase master服务异常》的规则报警,当指标hbase.state触发该报警时,系统会触发诊断分析,依次经过上下游关联(即服务依赖拓扑关系)、引发报警的高消耗进程、可能引起报警的事件、报警相关联指标(即关联分析)、报警相关日志分析,最终从运维知识库中推荐出解决方案。当推荐多个解决方案时,用户可以通过采纳提升方案的采纳率。采纳率越高说明可参考的价值越高。该实例中推荐4个解决方案,用户可以根据采纳率依次查看。
本实施例还以CPU用户使用率过高CPU user usage>80%为例,通过本发明提供的技术方案进行处理,包括:
创建报警名称为《System:CPU user usage>80%》的规则报警,即CPU用户使用率超过80%报警,当指标cpu.usr超过阈值设置时报警,系统会触发诊断分析,依次经过上下游关联(即服务依赖拓扑关系)、引发报警的高消耗进程、可能引起报警的事件、报警相关联指标(即关联分析)、报警相关日志分析,最终从运维知识库中推荐出解决方案。当推荐多个解决方案时,用户可以通过采纳提升方案的采纳率。采纳率越高说明可参考的价值越高。该实例中推荐2个解决方案,用户可以根据采纳率依次查看。
本实施例还以数据库CPU使用率过高为例,通过本发明提供的技术方案进行处理,包括:
创建报警名称为《DB CPU utilization》的规则报警,即数据库CPU使用率,当指标proc.loadavg.1min超过阈值设置时报警,系统会触发诊断分析,依次经过上下游关联(即服务依赖拓扑关系)、引发报警的高消耗进程、可能引起报警的事件、报警相关联指标(即关联分析)、报警相关日志分析,最终从运维知识库中推荐出解决方案。当推荐多个解决方案时,用户可以通过采纳提升方案的采纳率。采纳率越高说明可参考的价值越高。该实例中推荐1个解决方案。
本发明提供的技术方案有以下优点:
1.采用一种基于人工智能的高效排障流程方法,能够通过该方法快速追溯到故障的源头,并分析出根因,大大提高运维效率,降低运维成本。
2.设计故障溯源图谱,可以提供界面让运维人员一键自动式排查故障,并基于机器学习算法快速定位原因,并推荐对应的解决方案,便于快速解决问题。
3.关联分析算法对事件发生的时间顺序以及事件的显示关联进行分析,通过对服务、机器的指标进行关联分析,快速缩小排查范围,提升排障效率。
现有技术包括:(1)一种告警过滤方法及系统,而且主要是硬件设备,预测哪些低级别告警会在特定的时间范围内转化为高级别告警;
(2)一种管理知识库,实现知识共享,提升运维工单转知识库的方法;
(3)一种能够融合不同告警的时序关联性以及不同告警的拓扑关联性,来从大量告警中挖掘出根因告警信息;
(4)一种是基于关联分析的链式监控事件根因分析方法,用于在报警风暴当中,确定根因报警,应对报警风暴;
现有技术都是从告警入手,其目的只是从大量告警中,排除干扰性的告警通知,找到实际导致故障发生的告警,并未对该告警产生的实际原因进行分析,而本发明提出的基于关联分析的根因分析,是通过对所有运维数据的综合分析,确定导致这个故障的真实原因,而并非仅仅定位到根因告警通知而已。同时运维知识库只是根因分析的一个组件,用于记录解决方案,并和故障建立的强关联,可以通过诊断分析直接推送出来,另外支持人工反馈不断补充知识库。
实施例2
基于同一发明构思,本发明还提供了一种智能的根因分析系统,包括:
根因分析模块,用于对接收到的故障报警进行根因分析,获得故障排查的范围;
故障溯源图谱模块,用于基于故障排查的范围和故障溯源图谱,确定故障发生的原因;
运维知识库模块,用于基于故障发生的原因从运维知识库中获取所述故障对应的解决方案。
实施例中,所述根因分析模块,包括:
上下游关联分析单元,用于对接收到的故障报警进行上下游关联分析,获的所述故障报警服务所在的所有服务器以及各服务器中与故障报警相关的服务状态和上下游服务状态;
高消耗进程分析单元,用于对各服务器的进程性能数据进行高消耗进程分析,获的资源消耗超过阈值的进程信息;
事件分析单元,用于对各服务器进行事件分析,获得当前故障报警发生时在设定时间内的操作;
指标关联分析单元,用于在各服务器中对所述故障报警的指标采用动态时间规整算法进行指标关联分析,获取曲线变化相似的指标;
日志分析单元,用于在各服务器的日志中进行报警关联日志分析,获取在设定时间内日志中的错误信息;
根因分析单元,用于基于所述各服务器中与故障报警相关的服务状态和上下游服务状态、资源消耗超过阈值的进程信息、当前故障报警发生时在设定时间内的操作、曲线变化相似的指标和在设定时间内日志中的错误信息,确定故障排查的范围。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。

Claims (9)

1.一种智能的根因分析方法,其特征在于,包括:
对接收到的故障报警进行根因分析,获得故障排查的范围;
基于故障排查的范围和故障溯源图谱,确定故障发生的原因;
基于故障发生的原因从运维知识库中获取所述故障对应的解决方案;
所述对接收到的故障报警进行根因分析,获得故障排查的范围,包括:
对接收到的故障报警进行上下游关联分析,获得所述故障报警服务所在的所有服务器以及各服务器中与故障报警相关的服务状态和上下游服务状态;
对各服务器的进程性能数据进行高消耗进程分析,获得资源消耗超过阈值的进程信息;
对各服务器进行事件分析,获得当前故障报警发生时在设定时间内的操作;
在各服务器中对所述故障报警的指标采用动态时间规整算法进行指标关联分析,获取曲线变化相似的指标;
在各服务器的日志中进行报警关联日志分析,获取在设定时间内日志中的错误信息;
基于所述各服务器中与故障报警相关的服务状态和上下游服务状态、资源消耗超过阈值的进程信息、当前故障报警发生时在设定时间内的操作、曲线变化相似的指标和在设定时间内日志中的错误信息,确定故障排查的范围;
所述进程性能数据,包括:进程名称、启动时间、CPU使用率、内存使用率和IO信息。
2.如权利要求1所述的方法,其特征在于,所述对接收到的故障报警进行上下游关联分析,获得所述故障报警服务所在的所有服务器以及各服务器中与故障报警相关的服务状态和上下游服务状态,包括:
基于所述故障报警和预先构建的服务依赖拓扑关系进行上下游关联分析,获得所述故障报警服务所在的所有服务器;
在各服务器中获取与故障报警相关的服务状态和上下游服务状态;
其中,所述服务依赖拓扑关系的构建包括:利用探针自动发现系统的服务类型和具体部署在哪些服务器;把每种服务当作一个节点,每个节点可以展开多个服务所在的服务器的情况,以及服务与服务之间的依赖关系。
3.如权利要求1所述的方法,其特征在于,所述当前故障报警发生时在设定时间内的操作,包括:
服务重启、机器重启、内存溢出自保护事件、可疑的编辑命令行操作、可疑的终止进程命令行操作、可疑的开始/停止命令行操作和/或可疑的删除命令行操作。
4.如权利要求1所述的方法,其特征在于,所述在各服务器中对所述故障报警的指标采用动态时间规整算法进行指标关联分析,获取曲线变化相似的指标,包括:
在各服务器中分别获取故障报警发生前在预设的第一时间内所有的指标;
将所述故障报警发生前在预设的第一时间内所有的指标以时间为轴绘制报警相关指标曲线;
基于所述故障报警的指标绘制报警指标曲线;
基于所述报警相关指标曲线和报警指标曲线采用动态时间规整算法进行指标关联分析,获得指标的线性相关性;
基于所述指标的线性相关性,获取曲线变化相似的指标。
5.如权利要求4所述的方法,其特征在于,按下式计算所述指标的线性相关性:
其中:r:指标的线性相关性;X:报警相关指标的时序数据;Y:故障报警指标的时序数据;Xi:报警相关指标时序数据中第i个时间点的值;报警相关指标序列的平均值;Yi:故障报警指标时序数据中第i个时间点的值;/>故障报警指标序列的平均值;SX:报警相关指标序列的标准方差;SY:故障报警指标序列的标准方差。
6.如权利要求1所述的方法,其特征在于,所述基于故障排查的范围和故障溯源图谱,确定故障发生的原因,包括:
基于故障排查的范围中与故障报警相关的服务状态和上下游服务状态、资源消耗超过阈值的进程信息、当前故障报警发生时在设定时间内的操作、曲线变化相似的指标和在设定时间内日志中的错误信息,从故障溯源图谱中获取故障报警的根因;
当未获取到故障报警的根因时,通过分析模式反馈给运维人员,并将运维人员输入的故障报警根因与故障报警建立因果关系进行存储;
其中,所述故障溯源图谱中存储指标、日志、进程之间的因果关系。
7.如权利要求1所述的方法,其特征在于,所述运维知识库中故障对应的解决方案,包括:
故障对应的历史解决方案和基于网络获取的解决方案。
8.如权利要求1所述的方法,其特征在于,所述故障报警的来源,包括:
规则报警和自动发现异常;
所述规则报警为,为待监测指标设置阈值,当超过阈值时发生报警;
所述自动异常发现为,通过查询待监测指标的历史数据预测未来设定周期内的趋势,并将历史数据与预测趋势进行对比获得差值,当所述差值超过门槛值时发生报警。
9.一种智能的根因分析系统,其特征在于,包括:
根因分析模块,用于对接收到的故障报警进行根因分析,获得故障排查的范围;
故障溯源图谱模块,用于基于故障排查的范围和故障溯源图谱,确定故障发生的原因;
运维知识库模块,用于基于故障发生的原因从运维知识库中获取所述故障对应的解决方案;
所述根因分析模块,包括:
上下游关联分析单元,用于对接收到的故障报警进行上下游关联分析,获得所述故障报警服务所在的所有服务器以及各服务器中与故障报警相关的服务状态和上下游服务状态;
高消耗进程分析单元,用于对各服务器的进程性能数据进行高消耗进程分析,获得资源消耗超过阈值的进程信息;
事件分析单元,用于对各服务器进行事件分析,获得当前故障报警发生时在设定时间内的操作;
指标关联分析单元,用于在各服务器中对所述故障报警的指标采用动态时间规整算法进行指标关联分析,获取曲线变化相似的指标;
日志分析单元,用于在各服务器的日志中进行报警关联日志分析,获取在设定时间内日志中的错误信息;
根因分析单元,用于基于所述各服务器中与故障报警相关的服务状态和上下游服务状态、资源消耗超过阈值的进程信息、当前故障报警发生时在设定时间内的操作、曲线变化相似的指标和在设定时间内日志中的错误信息,确定故障排查的范围。
CN201910575025.7A 2019-06-28 2019-06-28 一种智能的故障根因分析方法及系统 Active CN112152830B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910575025.7A CN112152830B (zh) 2019-06-28 2019-06-28 一种智能的故障根因分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910575025.7A CN112152830B (zh) 2019-06-28 2019-06-28 一种智能的故障根因分析方法及系统

Publications (2)

Publication Number Publication Date
CN112152830A CN112152830A (zh) 2020-12-29
CN112152830B true CN112152830B (zh) 2023-08-04

Family

ID=73869370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910575025.7A Active CN112152830B (zh) 2019-06-28 2019-06-28 一种智能的故障根因分析方法及系统

Country Status (1)

Country Link
CN (1) CN112152830B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112786124B (zh) * 2020-12-30 2022-09-02 医渡云(北京)技术有限公司 一种问题排查方法、装置、存储介质及设备
CN112948187B (zh) * 2021-01-04 2023-03-24 杭州恒朴电子科技有限公司 一种卷包生产环节多指标波动关联分析方法
CN112559237B (zh) * 2021-02-19 2021-07-06 北京必示科技有限公司 运维系统排障方法、装置、服务器和存储介质
CN113032235B (zh) * 2021-03-31 2022-11-04 上海天旦网络科技发展有限公司 基于系统指标与命令调用日志的运维措施推荐方法及系统
CN112990766B (zh) * 2021-04-16 2023-10-20 成都数之联科技股份有限公司 一种产品搬送路径中不良根因设备的确定方法、系统、装置及介质
CN113259168B (zh) * 2021-05-28 2021-11-23 新华三人工智能科技有限公司 一种故障根因分析方法及装置
CN113342889A (zh) * 2021-06-03 2021-09-03 中国工商银行股份有限公司 分布式数据库的管理方法、装置、设备和介质
CN113360722B (zh) * 2021-06-25 2022-08-09 杭州优云软件有限公司 一种基于多维数据图谱的故障根因定位方法及系统
CN113377567B (zh) * 2021-06-28 2024-10-08 东南大学 一种基于知识图谱技术的分布式系统故障根因溯源方法
CN113656206B (zh) * 2021-07-23 2024-10-18 东软集团股份有限公司 一种错误日志处理方法、装置及设备
CN113341859B (zh) * 2021-08-06 2021-11-09 中海石油(中国)有限公司天津分公司 基于知识图谱的海上平台水处理系统平衡方法
US11928009B2 (en) * 2021-08-06 2024-03-12 International Business Machines Corporation Predicting a root cause of an alert using a recurrent neural network
CN113590370B (zh) * 2021-08-06 2022-06-21 北京百度网讯科技有限公司 一种故障处理方法、装置、设备及存储介质
CN113392542B (zh) * 2021-08-16 2021-12-14 傲林科技有限公司 一种基于事件网的根因溯源方法、装置及电子设备
CN113688211B (zh) * 2021-10-27 2022-04-22 天津安锐捷技术有限公司 一种针对报警信息推荐解决方案的处理方法
CN114153646B (zh) * 2021-12-09 2024-08-23 建信金融科技有限责任公司 一种运维故障处置方法、装置及存储介质、处理器
CN114780273B (zh) * 2022-04-19 2024-09-06 苏州浪潮智能科技有限公司 故障服务器的处理方法、系统、电子设备和存储介质
CN115327282B (zh) * 2022-09-13 2023-03-10 恒华数字科技集团有限公司 供电系统故障诊断方法
CN115766404A (zh) * 2022-10-24 2023-03-07 浪潮通信信息系统有限公司 一种基于智能分析的通信运营商网络故障管理方法及系统
CN115858324B (zh) * 2023-02-02 2023-05-12 北京神州光大科技有限公司 基于ai的it设备故障处理方法、装置、设备和介质
CN117371978B (zh) * 2023-09-05 2024-07-05 长江信达软件技术(武汉)有限责任公司 一种基于物联网平台的供水项目设备故障溯源方法
CN117078231A (zh) * 2023-10-13 2023-11-17 山东浪潮新世纪科技有限公司 一种彩票零售机运维管理系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103414581A (zh) * 2013-07-24 2013-11-27 佳都新太科技股份有限公司 一种基于数据挖掘的设备故障报警预测处理机制
CN105631596A (zh) * 2015-12-29 2016-06-01 山东鲁能软件技术有限公司 一种基于多维分段拟合的设备故障诊断方法
CN107341068A (zh) * 2017-06-28 2017-11-10 北京优特捷信息技术有限公司 通过自然语言处理进行运维排障的方法和装置
CN109800127A (zh) * 2019-01-03 2019-05-24 众安信息技术服务有限公司 一种基于机器学习的系统故障诊断智能化运维方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7856575B2 (en) * 2007-10-26 2010-12-21 International Business Machines Corporation Collaborative troubleshooting computer systems using fault tree analysis

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103414581A (zh) * 2013-07-24 2013-11-27 佳都新太科技股份有限公司 一种基于数据挖掘的设备故障报警预测处理机制
CN105631596A (zh) * 2015-12-29 2016-06-01 山东鲁能软件技术有限公司 一种基于多维分段拟合的设备故障诊断方法
CN107341068A (zh) * 2017-06-28 2017-11-10 北京优特捷信息技术有限公司 通过自然语言处理进行运维排障的方法和装置
CN109800127A (zh) * 2019-01-03 2019-05-24 众安信息技术服务有限公司 一种基于机器学习的系统故障诊断智能化运维方法及系统

Also Published As

Publication number Publication date
CN112152830A (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
CN112152830B (zh) 一种智能的故障根因分析方法及系统
WO2021179574A1 (zh) 根因定位方法、装置、计算机设备和存储介质
CN111158977A (zh) 一种异常事件根因定位方法及装置
CN106209405B (zh) 故障诊断方法及装置
CN105095048A (zh) 一种基于业务规则的监控系统告警关联处理方法
CN111782460A (zh) 大规模日志数据的异常检测方法、装置和存储介质
CN112487033A (zh) 一种面向数据流及构建网络拓扑的业务可视化方法及系统
US11644812B2 (en) Machine tool management method, machine tool management system and medium
CN101984415A (zh) 一种设定监控指标阈值的方法和装置
CN103744897A (zh) 故障信息的关联搜索方法、系统和网络管理系统
CN112148733A (zh) 确定故障类型的方法、装置、电子装置和计算机可读介质
CN112532643A (zh) 基于深度学习的流量异常检测方法、系统、终端及介质
CN111798083B (zh) 一种生产调度监控系统、方法及存储介质
CN113516565A (zh) 一种基于知识库的电力监控系统告警智能处理方法及其装置
CN112182233B (zh) 用于存储设备故障记录的知识库、及利用其辅助定位设备故障的方法及系统
CN112905370A (zh) 拓扑图生成方法、异常检测方法、装置、设备及存储介质
CN113886130A (zh) 一种处理数据库故障的方法,装置及介质
CN117909864A (zh) 一种电力故障预测系统及方法
CN113765698A (zh) 一种面向工业互联网的网络故障定位和根因检测方法及系统
CN117034149A (zh) 故障处理策略确定方法、装置、电子设备和存储介质
CN110837530A (zh) 基于轨道交通综合设备监测的故障信息处理方法及装置
CN115438093A (zh) 一种电力通信设备故障判断方法与检测系统
CN112148347A (zh) 一种全流程溯源管理的方法和装置
CN115062144A (zh) 一种基于知识库和集成学习的日志异常检测方法与系统
CN112147974A (zh) 基于化工过程知识自动化的报警根原因诊断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant