CN110708204A - 一种基于运维知识库的异常处理方法、系统、终端及介质 - Google Patents

一种基于运维知识库的异常处理方法、系统、终端及介质 Download PDF

Info

Publication number
CN110708204A
CN110708204A CN201911129341.8A CN201911129341A CN110708204A CN 110708204 A CN110708204 A CN 110708204A CN 201911129341 A CN201911129341 A CN 201911129341A CN 110708204 A CN110708204 A CN 110708204A
Authority
CN
China
Prior art keywords
fault
data
knowledge base
log
alarm information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911129341.8A
Other languages
English (en)
Other versions
CN110708204B (zh
Inventor
李腾达
沈琼玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Weidi Information Technology Co Ltd
Original Assignee
Shanghai Weidi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Weidi Information Technology Co Ltd filed Critical Shanghai Weidi Information Technology Co Ltd
Priority to CN201911129341.8A priority Critical patent/CN110708204B/zh
Publication of CN110708204A publication Critical patent/CN110708204A/zh
Application granted granted Critical
Publication of CN110708204B publication Critical patent/CN110708204B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明属于数据处理领域,具体涉及一种基于运维知识库的异常处理方法、系统、终端及介质,所述方法包括:包括以下步骤:监测并获取各个方面的运行数据;对运行数据进行分析,得到异常数据并生成告警信息;对告警信息进行故障收敛分类,得到分类后的故障事件;根据运维知识库对故障事件进行分析,得到故障处理方案。本发明对运行数据进行监测分析,在出现异常情况时,进行告警和故障分析,并给出故障处理方案。

Description

一种基于运维知识库的异常处理方法、系统、终端及介质
技术领域
本发明属于数据处理领域,具体涉及一种基于运维知识库的异常处理方法、系统、终端及介质。
背景技术
随着企业信息化的速度越来越高,运维的压力也像山一样的成堆增长,企业的利润越来越依赖于IT系统的建设水平。因此,如何快速提高企业运维的管理也是各个企业目前最急迫的需求。现阶段的情况是大多数企业都已经完成了IT基础设施的布局,接下来需要通过提高运维水平及业务管理能力来提升整个运维的运行效率。
现有技术中,通过各种技术工具对IT系统进行运维监控,如Tivoli、Zabbix、APM、网络抓包、应用埋点监控等会采集各种监控指标,这些指标通常被存储为时序数据(包含采集时间和指标值)。现有的运维监控通常是采集各种指标,并没有对监控的异常情况进行很好的分析处理。
发明内容
针对现有技术中的缺陷,本发明提供了一种基于运维知识库的异常处理方法、系统、终端及介质,对运行数据进行监测分析,在出现异常情况时,进行告警和故障分析,并给出故障处理方案。
第一方面,本发明提供了一种基于运维知识库的异常处理方法,包括以下步骤:
监测并获取各个方面的运行数据;
对运行数据进行分析,得到异常数据并生成告警信息;
对告警信息进行故障收敛分类,得到分类后的故障事件;
根据运维知识库对故障事件进行分析,得到故障处理方案。
优选地,所述运维知识库包括若干运维故障问题的故障处理方案。
优选地,所述运行数据包括但不限于日志数据、设备运行数据、交易数据和批量处理数据。
优选地,所述告警信息包括日志异常告警信息、指标异常告警信息和跑批异常告警信息。
优选地,所述对运行数据进行分析,得到异常数据并生成告警信息,具体为:
根据日志数据,解析日志模板,并提取日志关键信息,根据日志关键信息进行异常检测,得到日志异常告警信息;
根据日志数据、设备运行数据和交易数据,进行趋势预测和指标分析,得到指标异常告警信息;
根据批量处理数据,进行跑批异常检测,得到跑批异常告警信息。
优选地,所述对告警信息进行故障收敛分类,得到分类后的故障事件,具体为:
对告警信息进行去噪处理、聚合处理或预测处理,从而对告警信息进行故障分类,得到故障事件。
优选地,所述根据运维知识库对故障事件进行分析,得到故障处理方案,具体为:
将故障事件与运维知识库里的故障模板进行匹配,从而得到故障事件的类别;
根据故障事件的类别得到对应的故障处理方案。
第二方面,本发明提供了一种基于运维知识库的异常处理系统,适用于第一方面所述的基于运维知识库的异常处理方法,包括但不限于数据监测单元、分析告警单元、故障收敛单元和故障决策单元;
所述数据监测单元,用于监测并获取各个方面的运行数据;
所述分析告警单元,用于对运行数据进行分析,得到异常数据并生成告警信息;
所述故障收敛单元,用于对告警信息进行故障收敛分类,得到分类后的故障事件;
所述故障决策单元,根据运维知识库对故障事件进行分析,得到故障处理方案。
第三方面,本发明提供了一种终端,包括处理器和存储器,所述处理器和存储器相互连接,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行第一方面所述的方法。
第四方面,本发明提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行第一方面所述的方法。
本发明的技术方案,对运行数据进行监测分析,在出现异常情况时,进行告警和故障分析,并给出故障处理方案。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1为本实施例中基于运维知识库的异常处理方法的流程图;
图2为本实施例中基于运维知识库的异常处理系统的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
具体实现中,本发明实施例中描述的终端包括但不限于诸如具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的移动电话、膝上型计算机或平板计算机之类的其它便携式设备。还应当理解的是,在某些实施例中,所述设备并非便携式通信设备,而是具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的台式计算机。
实施例一:
本实施例提供了一种基于运维知识库的异常处理方法,如图1所示,包括以下步骤:
S1,监测并获取各个方面的运行数据;
S2,对运行数据进行分析,得到异常数据并生成告警信息;
S3,对告警信息进行故障收敛分类,得到分类后的故障事件;
S4,根据运维知识库对故障事件进行分析,得到故障处理方案。
本实施例的运行数据包括但不限于日志数据、设备运行数据、交易数据和批量处理数据。所述日志数据包括系统日志数据、应用日志数据等,所述日志,如典型日志、数据库日志、WAS(WebSphere Application Server)日志、web logic日志和交换机日志。WebSphere Application Server是一个基于Java的Web应用程序服务器,它构建在开放标准的基础之上,能部署与管理从简单的Web站点到强大的电子商务解决方案的诸多应用程序。所述设备运行数据包括CPU数据、内存数据、中间件数据、DB数据等。所述交易数据包括交易量、响应时间、成功率、响应率、交易延迟、交易类型、返回码、渠道等。所述批量处理数据包括任务开始时间、任务结束时间、交易量等。
在采集到运行数据后,对运行数据进行分析,得到异常数据并生成告警信息,所述告警信息包括日志异常告警信息、指标异常告警信息和跑批异常告警信息。其中,进行分析告警的步骤S2具体包括S21、S22和S23这几个步骤,如下:
S21,根据日志数据,解析日志模板,并提取日志关键信息,根据日志关键信息进行异常检测,得到日志异常告警信息。
S22,根据日志数据、设备运行数据和交易数据,进行趋势预测和指标分析,得到指标异常告警信息。
S23,根据批量处理数据,进行跑批异常检测,得到跑批异常告警信息。
本实施例中,日志的异常检测分为两个部分,第一部分是日志模式提取、第二部分是基于模式提取对日志进行异常检测。传统方法是通过正则表达式对日志进行解析,日志往往有大量的格式,解析工作非常复杂,需要花费大量时间进行调试,另外需要实时对来自多个系统的海量日志进行多个规则的解析,性能较差。本实施例中采用机器学习算法对历史日志进行离线训练,提取出模板,并且每天晚上,当日志量满足的情况下,会自动触发增量训练,自动更新日志模板。SPARK任务会调用这些模板对日志进行实时解析。通过解析出来的模板,会实时将日志解析成为结构化日志,日志异常检测则是通过变量、模板占比、突增、分布等多种算法组合来定位日志异常。日志的异常检测分为两种:主动检测以及被动检测。主动检测可以配置多种规则,如根据匹配模板的日志条数,未匹配到模板的日志条数,模板中的某个变量的突变、分布;被动检测是KPI经过单指标实时检测,检测出问题的时候,触发对近期(本实施例中设置为故障前后2小时)日志的异常检测,具体的检测规则也包括模板数量、变量分布情况等与正常情况自动进行对比分析,判断日志是否有异常发现。具体实施时,采用的CPU(30C)+MEM(60G)的资源可以实现对每天TB级别的日志进行实时解析以及分钟级别异常检测。当日志异常时,进行日志异常告警。
本实施例中对日志数据进行预测分析得到日志指标KPI,对设备运行数据进行预测分析得到基础监控指标KPI,对交易数据进行预测分析得到业务指标KPI和交易指标KPI,对日志指标KPI、基础监控指标KPI、业务指标KPI和交易指标KPI进行综合分析,从而得到指标异常信息,并进行指标异常告警。
所谓批处理是指用户将一批任务按照它们的性质分组(或分批),然后再成组(或成批)地提交给操作系统后就不再干预,由操作系统控制它们自动运行,并输出结果,从而提高对任务的处理效率。操作系统进行批处理的过程中,对其进行跑批检测,对异常情况进行匹配告警。
本实施例中,通过异常检测得到告警信息后,对告警信息进行去噪处理、聚合处理或预测处理,从而对告警信息进行故障分类,得到故障事件。
在传统告警中,比较容易出现告警风暴,典型的情况是当数据库服务器宕机之后,主机监控,数据库监控,网络监控会同时产生告警。传统的商业软件或者开源监控软件通常是基于规则,例如基于某个时间段告警的IP,告警的某些字段相同,从而来对告警进行聚类,存在的缺陷就是对于不同类型的告警需要另外设置,较为繁琐。在本实施例中采用的是通过算法组合来对告警进行聚合,有效的避免了告警风暴,目前生产上配置的资源为CPU(4C)+MEM(4G)可以满足一天对10000条告警进行聚合处理。
告警去噪主要分为两个类型:周期降噪和内容降噪。周期降噪,基于告警历史发生的模型判断周期性,具有周期性则自动降噪。
计算告警周期性的方法分为以下三个步骤:
1)计算当前告警时间与历史告警时间的差分diff;
2)每个差分diff除以周期大小得到商和余数;
3)找出余数小于阈值w的商值,排序去重后计算相邻商的差值等于1的数量count,count>阈值t时表示满足周期。
内容降噪,基于告警特征+idf+告警等级进行降噪,方法如下:
1)选择告警特征
Figure BDA0002277847300000074
2)排列组合所有告警特征,计算每种组合的idf;
3)计算告警信息熵
Figure BDA0002277847300000071
Figure BDA0002277847300000072
其中,n为正整数。如果告警的信息熵
Figure BDA0002277847300000073
则被降噪。
本实施例中,在得到故障事件后,将故障事件与运维知识库里的故障模板进行匹配,从而得到故障事件的类别;根据故障事件的类别得到对应的故障处理方案。本实施例的运维知识库包括若干运维故障问题的故障处理方案。
综上所述,本实施例对运行数据进行监测分析,在出现异常情况时,进行告警和故障分析,并给出故障处理方案。本实施例基于运维知识库,对系统进行异常检测和故障处理,除了可以较为精确的解决系统问题以外,通过对运维知识库的数据分析能迅速发现潜在的问题,进行趋分析,对企业中的新需求提供策略和建议。
实施例二:
本实施例提供了一种基于运维知识库的异常处理系统,适用于实施例一所述的基于运维知识库的异常处理方法,如图2所示,包括但不限于数据监测单元、分析告警单元、故障收敛单元和故障决策单元;
所述数据监测单元,用于监测并获取各个方面的运行数据;
所述分析告警单元,用于对运行数据进行分析,得到异常数据并生成告警信息;
所述故障收敛单元,用于对告警信息进行故障收敛分类,得到分类后的故障事件;
所述故障决策单元,根据运维知识库对故障事件进行分析,得到故障处理方案。
本实施例的运行数据包括但不限于日志数据、设备运行数据、交易数据和批量处理数据。所述日志数据包括系统日志数据、应用日志数据等,所述日志,如典型日志、数据库日志、WAS(WebSphere Application Server)日志、web logic日志和交换机日志。WebSphere Application Server是一个基于Java的Web应用程序服务器,它构建在开放标准的基础之上,能部署与管理从简单的Web站点到强大的电子商务解决方案的诸多应用程序。所述设备运行数据包括CPU数据、内存数据、中间件数据、DB数据等。所述交易数据包括交易量、响应时间、成功率、响应率、交易延迟、交易类型、返回码、渠道等。所述批量处理数据包括任务开始时间、任务结束时间、交易量等。
在采集到运行数据后,对运行数据进行分析,得到异常数据并生成告警信息,所述告警信息包括日志异常告警信息、指标异常告警信息和跑批异常告警信息。其中,进行分析告警的具体方式如下:
根据日志数据,解析日志模板,并提取日志关键信息,根据日志关键信息进行异常检测,得到日志异常告警信息。
根据日志数据、设备运行数据和交易数据,进行趋势预测和指标分析,得到指标异常告警信息。
根据批量处理数据,进行跑批异常检测,得到跑批异常告警信息。
本实施例中,日志的异常检测分为两个部分,第一部分是日志模式提取、第二部分是基于模式提取对日志进行异常检测。传统方法是通过正则表达式对日志进行解析,日志往往有大量的格式,解析工作非常复杂,需要花费大量时间进行调试,另外需要实时对来自多个系统的海量日志进行多个规则的解析,性能较差。本实施例中采用机器学习算法对历史日志进行离线训练,提取出模板,并且每天晚上,当日志量满足的情况下,会自动触发增量训练,自动更新日志模板。SPARK任务会调用这些模板对日志进行实时解析。通过解析出来的模板,会实时将日志解析成为结构化日志,日志异常检测则是通过变量、模板占比、突增、分布等多种算法组合来定位日志异常。日志的异常检测分为两种:主动检测以及被动检测。主动检测可以配置多种规则,如根据匹配模板的日志条数,未匹配到模板的日志条数,模板中的某个变量的突变、分布;被动检测是KPI经过单指标实时检测,检测出问题的时候,触发对近期(本实施例中设置为故障前后2小时)日志的异常检测,具体的检测规则也包括模板数量、变量分布情况等与正常情况自动进行对比分析,判断日志是否有异常发现。具体实施时,采用的CPU(30C)+MEM(60G)的资源可以实现对每天TB级别的日志进行实时解析以及分钟级别异常检测。当日志异常时,进行日志异常告警。
本实施例中对日志数据进行预测分析得到日志指标KPI,对设备运行数据进行预测分析得到基础监控指标KPI,对交易数据进行预测分析得到业务指标KPI和交易指标KPI,对日志指标KPI、基础监控指标KPI、业务指标KPI和交易指标KPI进行综合分析,从而得到指标异常信息,并进行指标异常告警。
所谓批处理是指用户将一批任务按照它们的性质分组(或分批),然后再成组(或成批)地提交给操作系统后就不再干预,由操作系统控制它们自动运行,并输出结果,从而提高对任务的处理效率。操作系统进行批处理的过程中,对其进行跑批检测,对异常情况进行匹配告警。
本实施例中,通过异常检测得到告警信息后,对告警信息进行去噪处理、聚合处理或预测处理,从而对告警信息进行故障分类,得到故障事件。
在传统告警中,比较容易出现告警风暴,典型的情况是当数据库服务器宕机之后,主机监控,数据库监控,网络监控会同时产生告警。传统的商业软件或者开源监控软件通常是基于规则,例如基于某个时间段告警的IP,告警的某些字段相同,从而来对告警进行聚类,存在的缺陷就是对于不同类型的告警需要另外设置,较为繁琐。在本实施例中采用的是通过算法组合来对告警进行聚合,有效的避免了告警风暴,目前生产上配置的资源为CPU(4C)+MEM(4G)可以满足一天对10000条告警进行聚合处理。
告警去噪主要分为两个类型:周期降噪和内容降噪。周期降噪,基于告警历史发生的模型判断周期性,具有周期性则自动降噪。
计算告警周期性的方法分为以下三个步骤:
1)计算当前告警时间与历史告警时间的差分diff;
2)每个差分diff除以周期大小得到商和余数;
3)找出余数小于阈值w的商值,排序去重后计算相邻商的差值等于1的数量count,count>阈值t时表示满足周期。
内容降噪,基于告警特征+idf+告警等级进行降噪,方法如下:
1)选择告警特征
2)排列组合所有告警特征,计算每种组合的idf;
3)计算告警信息熵
Figure BDA0002277847300000102
其中,n为正整数。如果告警的信息熵
Figure BDA0002277847300000104
则被降噪。
本实施例中,在得到故障事件后,将故障事件与运维知识库里的故障模板进行匹配,从而得到故障事件的类别;根据故障事件的类别得到对应的故障处理方案。本实施例的运维知识库包括若干运维故障问题的故障处理方案。
综上所述,本实施例对运行数据进行监测分析,在出现异常情况时,进行告警和故障分析,并给出故障处理方案。本实施例基于运维知识库,对系统进行异常检测和故障处理,除了可以较为精确的解决系统问题以外,通过对运维知识库的数据分析能迅速发现潜在的问题,进行趋分析,对企业中的新需求提供策略和建议。
实施例三:
本实施例提供了一种终端,包括处理器和存储器,所述处理器和存储器相互连接,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行实施例一所述的方法。
应当理解,在本发明实施例中,所称处理器可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。
具体实现中,本实施例中所描述的终端可执行实施例一提供的方法实施例所描述的实现方式,也在此不再赘述。
实施例四:
本实施例提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行实施例一所述的方法。
计算机可读存储介质可以是前述实施例的终端的内部存储单元,例如终端的硬盘或内存。计算机可读存储介质也可以是终端的外部存储设备,例如终端上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,计算机可读存储介质还可以既包括终端的内部存储单元也包括外部存储设备。计算机可读存储介质用于存储计算机程序以及终端所需的其他程序和数据。计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
具体实现中,本实施例中所描述的终端可执行实施例一提供的方法实施例所描述的实现方式,也在此不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的实施例中,应该理解到,所述步骤的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个步骤可结合为一个步骤,一个步骤可拆分为多个步骤,或一些特征可以忽略等。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (10)

1.一种基于运维知识库的异常处理方法,其特征在于,包括以下步骤:
监测并获取各个方面的运行数据;
对运行数据进行分析,得到异常数据并生成告警信息;
对告警信息进行故障收敛分类,得到分类后的故障事件;
根据运维知识库对故障事件进行分析,得到故障处理方案。
2.根据权利要求1所述的一种基于运维知识库的异常处理方法,其特征在于,所述运维知识库包括若干运维故障问题的故障处理方案。
3.根据权利要求2所述的一种基于运维知识库的异常处理方法,其特征在于,所述运行数据包括但不限于日志数据、设备运行数据、交易数据和批量处理数据。
4.根据权利要求3所述的一种基于运维知识库的异常处理方法,其特征在于,所述告警信息包括日志异常告警信息、指标异常告警信息和跑批异常告警信息。
5.根据权利要求4所述的一种基于运维知识库的异常处理方法,其特征在于,所述对运行数据进行分析,得到异常数据并生成告警信息,具体为:
根据日志数据,解析日志模板,并提取日志关键信息,根据日志关键信息进行异常检测,得到日志异常告警信息;
根据日志数据、设备运行数据和交易数据,进行趋势预测和指标分析,得到指标异常告警信息;
根据批量处理数据,进行跑批异常检测,得到跑批异常告警信息。
6.根据权利要求5所述的一种基于运维知识库的异常处理方法,其特征在于,所述对告警信息进行故障收敛分类,得到分类后的故障事件,具体为:
对告警信息进行去噪处理、聚合处理或预测处理,从而对告警信息进行故障分类,得到故障事件。
7.根据权利要求6所述的一种基于运维知识库的异常处理方法,其特征在于,所述根据运维知识库对故障事件进行分析,得到故障处理方案,具体为:
将故障事件与运维知识库里的故障模板进行匹配,从而得到故障事件的类别;
根据故障事件的类别得到对应的故障处理方案。
8.一种基于运维知识库的异常处理系统,适用于权利要求1-7任一项所述的基于运维知识库的异常处理方法,其特征在于,包括但不限于数据监测单元、分析告警单元、故障收敛单元和故障决策单元;
所述数据监测单元,用于监测并获取各个方面的运行数据;
所述分析告警单元,用于对运行数据进行分析,得到异常数据并生成告警信息;
所述故障收敛单元,用于对告警信息进行故障收敛分类,得到分类后的故障事件;
所述故障决策单元,根据运维知识库对故障事件进行分析,得到故障处理方案。
9.一种终端,包括处理器和存储器,所述处理器和存储器相互连接,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,其特征在于,所述处理器被配置用于调用所述程序指令,执行如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的方法。
CN201911129341.8A 2019-11-18 2019-11-18 一种基于运维知识库的异常处理方法、系统、终端及介质 Active CN110708204B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911129341.8A CN110708204B (zh) 2019-11-18 2019-11-18 一种基于运维知识库的异常处理方法、系统、终端及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911129341.8A CN110708204B (zh) 2019-11-18 2019-11-18 一种基于运维知识库的异常处理方法、系统、终端及介质

Publications (2)

Publication Number Publication Date
CN110708204A true CN110708204A (zh) 2020-01-17
CN110708204B CN110708204B (zh) 2023-03-31

Family

ID=69207178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911129341.8A Active CN110708204B (zh) 2019-11-18 2019-11-18 一种基于运维知识库的异常处理方法、系统、终端及介质

Country Status (1)

Country Link
CN (1) CN110708204B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339293A (zh) * 2020-02-11 2020-06-26 支付宝(杭州)信息技术有限公司 告警事件的数据处理方法、装置和告警事件的分类方法
CN112231185A (zh) * 2020-10-21 2021-01-15 中国银行股份有限公司 基于应用系统告警信息的知识获取方法及装置
CN112306794A (zh) * 2020-09-28 2021-02-02 国网吉林省电力有限公司信息通信公司 一种数据库典型故障场景自动处理方法及其装置
CN112380042A (zh) * 2020-11-17 2021-02-19 北京中亦安图科技股份有限公司 数据库软件的故障定位与分析方法、装置及存储介质
CN112561280A (zh) * 2020-12-09 2021-03-26 中铁第四勘察设计院集团有限公司 基于自学习收敛故障知识库的设备故障预测方法及其应用
CN112583640A (zh) * 2020-12-02 2021-03-30 厦门渊亭信息科技有限公司 一种基于知识图谱的服务故障检测方法及装置
CN112819349A (zh) * 2021-02-06 2021-05-18 建信金融科技有限责任公司 应用于数据加工的监控方法、装置、设备及介质
CN112863134A (zh) * 2020-12-31 2021-05-28 浙江清华长三角研究院 一种农村污水处理设施运行异常的智能诊断系统及方法
CN112882898A (zh) * 2021-02-24 2021-06-01 上海浦东发展银行股份有限公司 基于大数据日志分析的异常检测方法、系统、设备及介质
CN113076232A (zh) * 2021-03-30 2021-07-06 深圳供电局有限公司 一种健康数据指标的异常检测方法及系统
CN113342558A (zh) * 2021-06-03 2021-09-03 中国工商银行股份有限公司 批量业务异常处理方法、装置、计算机设备和存储介质
CN113472068A (zh) * 2021-05-24 2021-10-01 江苏源网和智能科技有限公司 一种海岛微电网远程运维方法、系统及存储介质
CN113553244A (zh) * 2020-04-24 2021-10-26 阿里巴巴集团控股有限公司 异常检测方法及设备
CN113553210A (zh) * 2021-07-30 2021-10-26 平安普惠企业管理有限公司 告警数据的处理方法、装置、设备及存储介质
CN113704018A (zh) * 2021-08-30 2021-11-26 平安普惠企业管理有限公司 应用运维数据处理方法、装置、计算机设备及存储介质
CN113886130A (zh) * 2021-10-21 2022-01-04 深信服科技股份有限公司 一种处理数据库故障的方法,装置及介质
CN114124652A (zh) * 2020-08-27 2022-03-01 中国移动通信集团广东有限公司 一种网络运维的方法、装置及电子设备
CN115333923A (zh) * 2022-10-14 2022-11-11 成都飞机工业(集团)有限责任公司 一种故障点溯源分析方法、装置、设备及介质
CN115865649A (zh) * 2023-02-28 2023-03-28 网思科技股份有限公司 一种智能运维管理控制方法、系统和存储介质
CN115858324A (zh) * 2023-02-02 2023-03-28 北京神州光大科技有限公司 基于ai的it设备故障处理方法、装置、设备和介质
WO2023241484A1 (zh) * 2022-06-16 2023-12-21 中兴通讯股份有限公司 异常事件处理方法、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110302562A1 (en) * 2006-12-22 2011-12-08 Avaya Inc. Higher order logic applied to expert systems for alarm analysis, filtering, correlation and root cause
CN104461820A (zh) * 2014-10-29 2015-03-25 中国建设银行股份有限公司 一种设备监控的方法及装置
CN107832200A (zh) * 2017-10-24 2018-03-23 平安科技(深圳)有限公司 告警处理方法、装置、计算机设备及存储介质
CN108521113A (zh) * 2018-04-25 2018-09-11 云南电网有限责任公司大理供电局 二次运维管理系统的告警信息呈现方法
CN109241144A (zh) * 2018-04-24 2019-01-18 中国银行股份有限公司 一种运维数据挖掘及合规检查方法与系统
CN110289976A (zh) * 2018-03-19 2019-09-27 上海秦苍信息科技有限公司 一种调度任务告警系统及方法
CN110413483A (zh) * 2019-07-30 2019-11-05 中国工商银行股份有限公司 批量作业数据的监控方法、装置、电子设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110302562A1 (en) * 2006-12-22 2011-12-08 Avaya Inc. Higher order logic applied to expert systems for alarm analysis, filtering, correlation and root cause
CN104461820A (zh) * 2014-10-29 2015-03-25 中国建设银行股份有限公司 一种设备监控的方法及装置
CN107832200A (zh) * 2017-10-24 2018-03-23 平安科技(深圳)有限公司 告警处理方法、装置、计算机设备及存储介质
CN110289976A (zh) * 2018-03-19 2019-09-27 上海秦苍信息科技有限公司 一种调度任务告警系统及方法
CN109241144A (zh) * 2018-04-24 2019-01-18 中国银行股份有限公司 一种运维数据挖掘及合规检查方法与系统
CN108521113A (zh) * 2018-04-25 2018-09-11 云南电网有限责任公司大理供电局 二次运维管理系统的告警信息呈现方法
CN110413483A (zh) * 2019-07-30 2019-11-05 中国工商银行股份有限公司 批量作业数据的监控方法、装置、电子设备及存储介质

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339293A (zh) * 2020-02-11 2020-06-26 支付宝(杭州)信息技术有限公司 告警事件的数据处理方法、装置和告警事件的分类方法
CN111339293B (zh) * 2020-02-11 2023-08-22 支付宝(杭州)信息技术有限公司 告警事件的数据处理方法、装置和告警事件的分类方法
CN113553244A (zh) * 2020-04-24 2021-10-26 阿里巴巴集团控股有限公司 异常检测方法及设备
CN114124652B (zh) * 2020-08-27 2023-09-22 中国移动通信集团广东有限公司 一种网络运维的方法、装置及电子设备
CN114124652A (zh) * 2020-08-27 2022-03-01 中国移动通信集团广东有限公司 一种网络运维的方法、装置及电子设备
CN112306794A (zh) * 2020-09-28 2021-02-02 国网吉林省电力有限公司信息通信公司 一种数据库典型故障场景自动处理方法及其装置
CN112231185A (zh) * 2020-10-21 2021-01-15 中国银行股份有限公司 基于应用系统告警信息的知识获取方法及装置
CN112380042A (zh) * 2020-11-17 2021-02-19 北京中亦安图科技股份有限公司 数据库软件的故障定位与分析方法、装置及存储介质
CN112380042B (zh) * 2020-11-17 2024-04-12 北京中亦安图科技股份有限公司 数据库软件的故障定位与分析方法、装置及存储介质
CN112583640A (zh) * 2020-12-02 2021-03-30 厦门渊亭信息科技有限公司 一种基于知识图谱的服务故障检测方法及装置
CN112561280A (zh) * 2020-12-09 2021-03-26 中铁第四勘察设计院集团有限公司 基于自学习收敛故障知识库的设备故障预测方法及其应用
CN112863134A (zh) * 2020-12-31 2021-05-28 浙江清华长三角研究院 一种农村污水处理设施运行异常的智能诊断系统及方法
CN112863134B (zh) * 2020-12-31 2022-11-18 浙江清华长三角研究院 一种农村污水处理设施运行异常的智能诊断系统及方法
CN112819349A (zh) * 2021-02-06 2021-05-18 建信金融科技有限责任公司 应用于数据加工的监控方法、装置、设备及介质
CN112882898B (zh) * 2021-02-24 2022-07-19 上海浦东发展银行股份有限公司 基于大数据日志分析的异常检测方法、系统、设备及介质
CN112882898A (zh) * 2021-02-24 2021-06-01 上海浦东发展银行股份有限公司 基于大数据日志分析的异常检测方法、系统、设备及介质
CN113076232A (zh) * 2021-03-30 2021-07-06 深圳供电局有限公司 一种健康数据指标的异常检测方法及系统
CN113472068A (zh) * 2021-05-24 2021-10-01 江苏源网和智能科技有限公司 一种海岛微电网远程运维方法、系统及存储介质
CN113342558A (zh) * 2021-06-03 2021-09-03 中国工商银行股份有限公司 批量业务异常处理方法、装置、计算机设备和存储介质
CN113553210A (zh) * 2021-07-30 2021-10-26 平安普惠企业管理有限公司 告警数据的处理方法、装置、设备及存储介质
CN113704018A (zh) * 2021-08-30 2021-11-26 平安普惠企业管理有限公司 应用运维数据处理方法、装置、计算机设备及存储介质
CN113886130A (zh) * 2021-10-21 2022-01-04 深信服科技股份有限公司 一种处理数据库故障的方法,装置及介质
WO2023241484A1 (zh) * 2022-06-16 2023-12-21 中兴通讯股份有限公司 异常事件处理方法、电子设备及存储介质
CN115333923A (zh) * 2022-10-14 2022-11-11 成都飞机工业(集团)有限责任公司 一种故障点溯源分析方法、装置、设备及介质
CN115858324A (zh) * 2023-02-02 2023-03-28 北京神州光大科技有限公司 基于ai的it设备故障处理方法、装置、设备和介质
CN115865649A (zh) * 2023-02-28 2023-03-28 网思科技股份有限公司 一种智能运维管理控制方法、系统和存储介质

Also Published As

Publication number Publication date
CN110708204B (zh) 2023-03-31

Similar Documents

Publication Publication Date Title
CN110708204B (zh) 一种基于运维知识库的异常处理方法、系统、终端及介质
CN110928718B (zh) 一种基于关联分析的异常处理方法、系统、终端及介质
US9298538B2 (en) Methods and systems for abnormality analysis of streamed log data
EP3120248B1 (en) Unsupervised anomaly detection for arbitrary time series
US20150178634A1 (en) Method and apparatus for handling bugs
JP2017072882A (ja) アノマリ評価プログラム、アノマリ評価方法、および情報処理装置
CN111240876B (zh) 微服务的故障定位方法、装置、存储介质及终端
CN115033463B (zh) 一种系统异常类型确定方法、装置、设备和存储介质
CN113297042B (zh) 一种告警消息的处理方法、装置及设备
CN108073611A (zh) 一种告警信息的过滤方法及装置
CN113051308A (zh) 告警信息处理方法、设备、存储介质及装置
CN108390793A (zh) 一种分析系统稳定性的方法及装置
CN115529595A (zh) 一种日志数据的异常检测方法、装置、设备及介质
JP2019049802A (ja) 障害解析支援装置、インシデント管理システム、障害解析支援方法及びプログラム
CN115328733A (zh) 应用于业务系统的告警方法、装置、电子设备及存储介质
CN110677271B (zh) 基于elk的大数据告警方法、装置、设备及存储介质
CN113472582B (zh) 用于信息技术监控中的警报关联和警报聚合的系统和方法
CN115118574A (zh) 一种数据处理方法、装置及存储介质
CN114531338A (zh) 一种基于调用链数据的监控告警和溯源方法及系统
CN113220551A (zh) 指标趋势预测及预警方法、装置、电子设备及存储介质
WO2021067385A1 (en) Debugging and profiling of machine learning model training
Kuang et al. Knowledge-aware Alert Aggregation in Large-scale Cloud Systems: a Hybrid Approach
CN116668264A (zh) 一种告警聚类的根因分析方法、装置、设备及存储介质
CN114881112A (zh) 一种系统异常检测方法、装置、设备及介质
CN115098326A (zh) 一种系统异常检测方法及装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant