CN110928718B - 一种基于关联分析的异常处理方法、系统、终端及介质 - Google Patents
一种基于关联分析的异常处理方法、系统、终端及介质 Download PDFInfo
- Publication number
- CN110928718B CN110928718B CN201911127806.6A CN201911127806A CN110928718B CN 110928718 B CN110928718 B CN 110928718B CN 201911127806 A CN201911127806 A CN 201911127806A CN 110928718 B CN110928718 B CN 110928718B
- Authority
- CN
- China
- Prior art keywords
- data
- log
- kpi
- index
- transaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005856 abnormality Effects 0.000 title claims abstract description 41
- 238000012098 association analyses Methods 0.000 title claims abstract description 22
- 238000003672 processing method Methods 0.000 title claims abstract description 6
- 230000002159 abnormal effect Effects 0.000 claims abstract description 69
- 238000012544 monitoring process Methods 0.000 claims abstract description 62
- 238000004458 analytical method Methods 0.000 claims abstract description 34
- 238000007405 data analysis Methods 0.000 claims abstract description 14
- 208000018910 keratinopathic ichthyosis Diseases 0.000 claims description 114
- 238000000034 method Methods 0.000 claims description 51
- 230000008859 change Effects 0.000 claims description 48
- 238000003860 storage Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 9
- 238000013523 data management Methods 0.000 claims description 7
- 230000000737 periodic effect Effects 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000010219 correlation analysis Methods 0.000 claims 1
- 238000012423 maintenance Methods 0.000 abstract description 6
- 238000001514 detection method Methods 0.000 description 15
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000001960 triggered effect Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000009933 burial Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000011895 specific detection Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3452—Performance evaluation by statistical analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3476—Data logging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种基于关联分析的异常处理方法,包括:获取相关联的待分析数据,待分析数据包括日志数据、机器监控数据、中间件及DB监控数据、交易指标数据和交易明细数据;对待分析数据进行数据治理得到治理后的数据;对治理后的数据进行数据分析得到异常数据,从异常数据中发现故障;对异常数据进行故障收敛;根据异常数据进行事件故障分析,对日志异常、机器异常和维度异常进行定位。通过对日志数据、机器监控数据、中间件及DB监控数据、交易指标和交易明细进行异常数据分析、从异常数据中发现故障,得到日志异常定位、机器异常定位和维度异常定位,为运维调度平台提供数据基础。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于关联分析的异常处理方法、系统、终端及介质。
背景技术
运维监控通过各种技术工具,如Tivoli、Zabbix、APM、网络抓包、应用埋点监控等会采集各种监控指标,这些指标通常被存储为时序数据(包含采集时间和指标值)。目前还没有一种能对多种关联监控指标数据进行自动检测、自动分析和发现故障的方法。
发明内容
针对现有技术中的缺陷,本发明的目的在于提供一种基于关联分析的异常处理方法、系统、终端及介质,能对关联监控指标数据进行自动检测、自动分析,及时发现故障。
第一方面,本发明实施例提供的一种基于关联分析的异常处理方法,包括:
获取相关联的待分析数据,所述待分析数据包括日志数据、机器监控数据、中间件及DB监控数据、交易指标数据和交易明细数据;
对所述待分析数据进行数据治理得到治理后的数据,所述治理后的数据包括日志指标KPI、基础监控KPI、业务KPI和交易指标KPI;
对所述治理后的数据进行数据分析得到异常数据,从异常数据中发现故障;
对异常数据进行故障收敛;
根据异常数据进行事件故障分析,对日志异常、机器异常和维度异常进行定位。
可选地,所述对治理后的数据进行数据分析得到异常数据的具体方法包括:
对所述日志指标KPI、基础监控KPI、业务KPI和交易指标KPI分别进行趋势预测;
根据趋势预测分别得到日志指标的趋势性变化信息、基础监控KPI的趋势性变化信息、业务KPI的趋势性变化信息和交易指标KPI的趋势性变化信息;
从所述日志指标的趋势性变化信息、基础监控KPI的趋势性变化信息、业务KPI的趋势性变化信息和交易指标KPI的趋势性变化信息中检测日志指标异常数据、基础监控KPI异常数据、业务KPI异常数据和交易指标KPI异常数据。
可选地,对待分析数据进行治理得到治理后的数据中对日志数据进行治理的方法包括:从日志数据中获取日志模板,对日志模板进行自动解析,得到日志指标KPI。
可选地,所述日志数据包括系统日志和应用日志。
可选地,所述交易指标数据包括交易量、响应时间、成功率和响应率;所述交易明细包括交易延迟、交易类型、返回码和渠道。
第二方面,本发明实施例提供的一种基于关联分析的异常处理系统,包括待分析数据获取模块、数据治理模块、异常分析模块、故障收敛模块和故障分析模块,
所述待分析数据获取模块被配置为获取获取相关联的待分析数据,所述待分析数据包括日志数据、机器监控数据、中间件及DB监控数据、交易指标数据和交易明细数据;
所述数据治理模块被配置为对所述待分析数据进行治理得到治理后的数据,所述治理后的数据包括日志指标KPI、基础监控KPI、业务KPI和交易指标KPI;
所述异常分析模块被配置为对所述治理后的数据进行数据分析得到异常数据,从异常数据中发现故障;
所述故障收敛模块被配置为对异常数据进行告警;
所述故障分析模块被配置为根据异常数据进行事件故障分析,对日志异常、机器异常和维度异常进行定位。
可选地,所述异常分析模块对治理后的数据进行分析的具体方法包括:
对所述日志指标KPI、基础监控KPI、业务KPI和交易指标KPI分别进行趋势预测;
根据趋势预测分别得到日志指标的趋势性变化信息、基础监控KPI的趋势性变化信息、业务KPI的趋势性变化信息和交易指标KPI的趋势性变化信息;
从所述日志指标的趋势性变化信息、基础监控KPI的趋势性变化信息、业务KPI的趋势性变化信息和交易指标KPI的趋势性变化信息中检测日志指标异常数据、基础监控KPI异常数据、业务KPI异常数据和交易指标KPI异常数据。
可选地,数据治理模块对日志数据进行治理的方法包括:从日志数据中获取日志模板,对日志模板进行自动解析,得到日志指标KPI。
第三方面,本发明实施例提供的一种智能终端,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述实施例描述的方法步骤。
第四方面,本发明实施例提供的一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述实施例描述的方法步骤。
本发明的有益效果:
本实施例的一种基于关联分析的异常处理方法、系统、终端及介质,通过对日志数据、机器监控数据、中间件及DB监控数据、交易指标和交易明细进行异常数据分析、从异常数据中发现故障,得到日志异常定位、机器异常定位和维度异常定位,为运维调度平台提供数据基础。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1示出了本发明第一实施例所提供的一种基于关联分析的异常处理方法的流程图;
图2示出了本发明第二实施例所提供的一种基于关联分析的异常处理系统的结构框图;
图3示出了本发明第三实施例所提供的一种智能终端的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
如图1所示,示出了本发明第一实施例所提供的一种基于关联分析的异常处理方法的流程图,该方法包括:
S1:获取相关联的待分析数据,所述待分析数据包括日志数据、机器监控数据、中间件及DB监控数据、交易指标数据和交易明细数据。
具体地,日志数据包括系统日志和应用日志。例如:典型日志、数据库日志、WAS(WebSphere Application Server)日志、web logic日志和交换机日志。WebSphereApplication Server是一个基于Java的Web应用程序服务器,它构建在开放标准的基础之上,能部署与管理从简单的Web站点到强大的电子商务解决方案的诸多应用程序。机器监控数据包括包括CPU、内存等典型指标数据。中间件、DB监控数据包括MQ队列场地和数据库锁等典型指标数据。交易指标数据包括交易量、响应时间、成功率和响应率;交易明细为每笔交易详情:如交易延迟、交易类型、返回码和渠道等。
S2:对所述待分析数据进行数据治理得到治理后的数据,所述治理后的数据包括日志指标KPI、基础监控KPI、业务KPI和交易指标KPI。
具体地,对待分析数据进行治理得到治理后的数据中对日志数据进行治理的方法包括:从日志数据中获取日志模板,对日志模板进行自动解析,得到日志指标KPI。
自然语言处理技术主要在文本日志的分析中会被大量用到。然而文本日志处理和传统的文本处理有很大区分,使得广泛被应用来做主题提取的TF-IDF等方案变得不再适用。基于此,采用了自研的自然语言处理技术FT-Tree。
FT-Tree日志模板提取
受到频繁模式树(frequence pattern tree,FP-tree)的启发,使用了一种从系统日志中提取模板(系统日志消息中详细信息字段的子类型)的方法——FT-tree。FT-tree准确率较高,并且支持增量学习。FT-tree是一种拓展的前缀树结构,用以表示系统日志消息模板。FT-tree的基本思想是,系统日志消息中详细信息字段的子类型通常是频繁出现的单词的最长组合。因此,提取模板等价于从系统日志消息中识别出频繁出现单词的最长组合。
每个消息类型应该只有少量的子类型。而且,对于每个子类型,应该有许多不同的系统日志消息与之匹配。因此,如果FT-tree的一个节点有太多的子节点(例如,超过一个阈值k),那么它的所有子节点(或子树)就从FT-tree中删除。这样,该子节点就变成叶子节点。在修剪后的FT-tree中,每条从根节点到叶子节点的路径上的单词所组成的单词集合是一条消息模板(即消息类型+子类型)。
为了对文本日志进行有效的利用,对其内容进行分析,并在系统产生异常时对其进行异常定位,我们提出了一套基于模板提取的日志异常分析与定位系统。
日志经过分析处理后从纯文本转化为半结构化数据,将会降低其处理的成本和难度。我们采用了FT-Tree作为模板提取的方法。通过对3-7天的日志进行处理分析并建立模型,学习其规律后,系统可以在线地对日志进行处理并分类接入Elasticsearch平台。步骤如下:
对每条日志进行预处理分词,将时间、数字、IP地址、路径等变量和其他词语区分开来;
利用FT-Tree对其进行模板学习,提取日志的公共部分,并将分析结果作为标签实时插入Elasticsearch。
经过以上分析步骤后,日志内容将会以半结构化的json数据的形式存储在Elasticsearch中。这些数据将会提供两种使用方式。可以通过Elasticsearch的SPL查询语句对其进行检索,实时生成图表和仪表盘。
S3:对所述治理后的数据进行数据分析得到异常数据,从异常数据中发现故障。
具体地,对治理后的数据进行数据分析得到异常数据的具体方法包括:
对所述日志指标KPI、基础监控KPI、业务KPI和交易指标KPI分别进行趋势预测;
根据趋势预测分别得到日志指标的趋势性变化信息、基础监控KPI的趋势性变化信息、业务KPI的趋势性变化信息和交易指标KPI的趋势性变化信息;
从所述日志指标的趋势性变化信息、基础监控KPI的趋势性变化信息、业务KPI的趋势性变化信息和交易指标KPI的趋势性变化信息中检测日志指标异常数据、基础监控KPI异常数据、业务KPI异常数据和交易指标KPI异常数据。
S4:对异常数据进行故障收敛。
具体地,对异常数据进行故障收敛的具体方法包括:对异常数据进行告警聚合、告警去噪和告警预测。
在传统告警中,比较容易出现告警风暴,典型的情况是当数据库服务器宕机之后,主机监控,数据库监控,网络监控会同时产生告警。传统的商业软件或者开源监控软件通常是基于规则,例如基于某个时间段告警的IP,告警的某些字段相同来对告警进行聚类,存在的缺陷就是对于不同类型的告警需要另外设置,较为繁琐。在我们智能运维平台采用的是通过算法组合来对告警进行聚合,有效的避免了告警风暴,目前生产上配置的资源为CPU(4C)+MEM(4G)可以满足一天对10000条告警进行聚合处理。
告警去噪主要分为两个类型:周期降噪和内容降噪。
周期降噪:基于告警历史发生的模型判断周期性,具有周期性则自动降噪。计算告警周期性的方法分为以下三个步骤:
1)计算当前告警时间与历史告警时间的差分diff;
2)每个diff除以周期大小得到商和余数;
3)找出余数小于阈值w的商值,排序去重后计算相邻商的差值等于1的数量count,count>阈值t时表示满足周期。
内容降噪:基于告警特征+idf+告警等级进行降噪,方法如下:
1)选择告警特征
2)排列组合所有特征,计算每种组合的idf;
3)计算告警信息熵
告警的则被降噪,n为正整数。
S5:根据异常数据进行事件故障分析,对日志异常、指标异常、机器异常和维度异常进行定位。
通过无监督算法对系统运行KPI进行实时异常监测。具体的指标主要类型为:功能号的调用次数、平均响应时间、成功率、响应率。生产中实时对数万个指标进行实时监测,由于算法的先进性,仅需要20G,40G的计算资源遍实现了对1万个指标的运行曲线进行实时的监测。KPI的异常监测采用的是无监督的算法,每一个小时会自动进行训练,提取数据特征,通常情况不需要对数据进行标注。下图为生产中已经发现的异常曲线,以及这个异常所产生的告警事件。
多指标异常定位:在通过单指标异常检测发现了关键指标发生了异常之后,会自动触发根据图库存储的关联关系对以下指标进行异常监测定位:相关机器指标(CPU/IO/SWAP/等)、数据库指标(锁等待、TPS、逻辑读、日志写入延时等)、网络指标(带宽、丢包、延迟)。整个过程在分钟级别可以自动完成,经过实测CPU(10C)+MEM(20G)的计算资源可以实现2000000个指标的异常检测定位可以在3分钟之内完成。生产中的指标包括了操作系统性能、网络、数据库等指标。在1)中告警KPI发生异常之后便自动触发了对相关的指标进行异常定位,并且根据异常程度进行排名。
日志的异常检测分为两个部分,第一部分是日志模式提取、第二部分是基于模式提取对日志进行异常检测。传统方法通常是通过正则对日志进行解析,而一些日志往往有大量的格式,解析工作非常复杂,需要大量花费大量时间进行调试,另外需要实时对来自的多个系统的海量日志进行多个规则解析,性能较差。本实施例中采用机器学习算法对历史日志进行离线训练,提取出模板,并且每天晚上当日志量满足的情况下,会自动触发增量训练,自动更新日志模板。SPARK任务会调用这些模板对日志进行实时解析。通过解析出来的模板会实时将日志解析成为结构化日志,日志异常检测则是通过变量、模板占比、突增、分布等多种算法组合来定位日志异常。日志的异常检测分为两种:主动检测以及被动检测。主动检测可以配置多种规则,如根据匹配模板数量日志条数,未匹配到末班日志数量条数,模板中的某个变量的突变、分布;被动检测是KPI经过单指标实时检测出现问题的时候,触发对近期(本实施例中设置为故障前后2小时)日志的异常检测,具体的检测规则也包括对模板的数量、变量分布等情况与正常情况自动进行对比分析,判断日志是否有异常发现。具体实施时,采用的CPU(30C)+MEM(60G)的资源可以实现对每天TB级别的日志进行实时解析以及分钟级别异常检测。
本实施例的一种基于关联分析的异常处理方法,通过对日志数据、机器监控数据、中间件及DB监控数据、交易指标和交易明细进行异常数据分析、从异常数据中发现故障,得到日志异常定位、机器异常定位和维度异常定位,为运维调度平台提供数据基础。
在上述的第一实施例中,提供了一种基于关联分析的异常处理方法,与之相对应的,本申请还提供一种基于关联分析的异常处理系统。请参考图2,其为本发明第二实施例提供的基于关联分析的异常处理系统的示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
如图2所示,示出了本发明第二实施例提供的一种基于关联分析的异常处理系统的结构框图,该系统包括待分析数据获取模块、数据治理模块、异常分析模块、故障收敛模块和故障分析模块,
所述待分析数据获取模块被配置为获取获取相关联的待分析数据,所述待分析数据包括日志数据、机器监控数据、中间件及DB监控数据、交易指标数据和交易明细数据;
所述数据治理模块被配置为对所述待分析数据进行治理得到治理后的数据,所述治理后的数据包括日志指标KPI、基础监控KPI、业务KPI和交易指标KPI;
所述异常分析模块被配置为对所述治理后的数据进行数据分析得到异常数据,从异常数据中发现故障;
所述故障收敛模块被配置为对异常数据进行告警;
所述故障分析模块被配置为根据异常数据进行事件故障分析,对日志异常、机器异常和维度异常进行定位。
可选地,所述异常分析模块对治理后的数据进行分析的具体方法包括:
对所述日志指标KPI、基础监控KPI、业务KPI和交易指标KPI分别进行趋势预测;
根据趋势预测分别得到日志指标的趋势性变化信息、基础监控KPI的趋势性变化信息、业务KPI的趋势性变化信息和交易指标KPI的趋势性变化信息;
从所述日志指标的趋势性变化信息、基础监控KPI的趋势性变化信息、业务KPI的趋势性变化信息和交易指标KPI的趋势性变化信息中检测日志指标异常数据、基础监控KPI异常数据、业务KPI异常数据和交易指标KPI异常数据。
可选地,数据治理模块对日志数据进行治理的方法包括:从日志数据中获取日志模板,对日志模板进行自动解析,得到日志指标KPI。
本实施例的一种基于关联分析的异常处理系统,通过对日志数据、机器监控数据、中间件及DB监控数据、交易指标和交易明细进行异常数据分析、从异常数据中发现故障,得到日志异常定位、机器异常定位和维度异常定位,为运维调度平台提供数据基础。
如图3所示,示出了本发明第三实施例提供一种智能终端的结构框图,该终端包括处理器、输入设备、输出设备和存储器,处理器、输入设备、输出设备和存储器相互连接,存储器用于存储计算机程序,计算机程序包括程序指令,处理器被配置用于调用程序指令,执行上述第一实施例描述的方法。
应当理解,在本发明实施例中,所称处理器可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
输入设备可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等,输出设备可以包括显示器(LCD等)、扬声器等。
该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。
具体实现中,本发明实施例中所描述的处理器、输入设备、输出设备可执行本发明实施例提供的方法实施例所描述的实现方式,也可执行本发明实施例所描述的系统实施例的实现方式,在此不再赘述。
在本发明还提供一种计算机可读存储介质的实施例,计算机存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时使处理器执上述实施例描述的方法。
计算机可读存储介质可以是前述实施例的终端的内部存储单元,例如终端的硬盘或内存。计算机可读存储介质也可以是终端的外部存储设备,例如终端上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,计算机可读存储介质还可以既包括终端的内部存储单元也包括外部存储设备。计算机可读存储介质用于存储计算机程序以及终端所需的其他程序和数据。计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的终端和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露终端和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
Claims (8)
1.一种基于关联分析的异常处理方法,其特征在于,包括:
获取相关联的待分析数据,所述待分析数据包括日志数据、机器监控数据、中间件及DB监控数据、交易指标数据和交易明细数据;
对所述待分析数据进行数据治理得到治理后的数据,所述治理后的数据包括日志指标KPI、基础监控KPI、业务KPI和交易指标KPI;
对待分析数据进行治理得到治理后的数据中对日志数据进行治理的方法包括:从日志数据中获取日志模板,对日志模板进行自动解析,得到日志指标KPI;
对日志进行处理并分类接入Elasticsearch平台,步骤如下:
对每条日志进行预处理分词;
利用FT-Tree对日志进行模板学习,提取日志的公共部分,并将分析结果作为标签实时插入Elasticsearch,FT-tree是一种拓展的前缀树结构,用以表示系统日志消息模板;
经过以上分析步骤后,日志内容将会以半结构化的json数据的形式存储在Elasticsearch中,通过Elasticsearch的SPL查询语句对其进行检索,实时生成图表和仪表盘;
对所述治理后的数据进行数据分析得到异常数据,从异常数据中发现故障;
对异常数据进行故障收敛,所述对异常数据进行故障收敛的具体方法包括:对异常数据进行告警聚合、告警去噪和告警预测,告警去噪分为两个类型:周期降噪和内容降噪;
根据异常数据进行事件故障分析,对日志异常、机器异常和维度异常进行定位;
对所述治理后的数据进行数据分析得到异常数据的具体方法包括:
对所述日志指标KPI、基础监控KPI、业务KPI和交易指标KPI分别进行趋势预测;
根据趋势预测分别得到日志指标的趋势性变化信息、基础监控KPI的趋势性变化信息、业务KPI的趋势性变化信息和交易指标KPI的趋势性变化信息;
从所述日志指标的趋势性变化信息、基础监控KPI的趋势性变化信息、业务KPI的趋势性变化信息和交易指标KPI的趋势性变化信息中检测日志指标异常数据、基础监控KPI异常数据、业务KPI异常数据和交易指标KPI异常数据。
2.如权利要求1所述的基于关联分析的异常处理方法,其特征在于,对待分析数据进行治理得到治理后的数据中对日志数据进行治理的方法包括:从日志数据中获取日志模板,对日志模板进行自动解析,得到日志指标KPI。
3.如权利要求1所述的基于关联分析的异常处理方法,其特征在于,所述日志数据包括系统日志和应用日志。
4.如权利要求1所述的基于关联分析的异常处理方法,其特征在于,所述交易指标数据包括交易量、响应时间、成功率和响应率;所述交易明细包括交易延迟、交易类型、返回码和渠道。
5.一种基于关联分析的异常处理系统,其特征在于,包括待分析数据获取模块、数据治理模块、异常分析模块、故障收敛模块和故障分析模块,
所述待分析数据获取模块被配置为获取相关联的待分析数据,所述待分析数据包括日志数据、机器监控数据、中间件及DB监控数据、交易指标数据和交易明细数据;
所述数据治理模块被配置为对所述待分析数据进行治理得到治理后的数据,所述治理后的数据包括日志指标KPI、基础监控KPI、业务KPI和交易指标KPI;
对待分析数据进行治理得到治理后的数据中对日志数据进行治理的方法包括:从日志数据中获取日志模板,对日志模板进行自动解析,得到日志指标KPI;
对日志进行处理并分类接入Elasticsearch平台,步骤如下:
对每条日志进行预处理分词;
利用FT-Tree对日志进行模板学习,提取日志的公共部分,并将分析结果作为标签实时插入Elasticsearch,FT-tree是一种拓展的前缀树结构,用以表示系统日志消息模板;
经过以上分析步骤后,日志内容将会以半结构化的json数据的形式存储在Elasticsearch中,通过Elasticsearch的SPL查询语句对其进行检索,实时生成图表和仪表盘;
所述异常分析模块被配置为对所述治理后的数据进行数据分析得到异常数据,从异常数据中发现故障;
所述故障收敛模块被配置为对异常数据进行告警,具体方法包括:对异常数据进行告警聚合、告警去噪和告警预测,告警去噪分为两个类型:周期降噪和内容降噪;
所述故障分析模块被配置为根据异常数据进行事件故障分析,对日志异常、机器异常和维度异常进行定位;
所述异常分析模块对治理后的数据进行分析的具体方法包括:
对所述日志指标KPI、基础监控KPI、业务KPI和交易指标KPI分别进行趋势预测;
根据趋势预测分别得到日志指标的趋势性变化信息、基础监控KPI的趋势性变化信息、业务KPI的趋势性变化信息和交易指标KPI的趋势性变化信息;
从所述日志指标的趋势性变化信息、基础监控KPI的趋势性变化信息、业务KPI的趋势性变化信息和交易指标KPI的趋势性变化信息中检测日志指标异常数据、基础监控KPI异常数据、业务KPI异常数据和交易指标KPI异常数据。
6.如权利要求5所述的基于关联分析的异常处理系统,其特征在于,数据治理模块对日志数据进行治理的方法包括:从日志数据中获取日志模板,对日志模板进行自动解析,得到日志指标KPI。
7.一种智能终端,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,其特征在于,所述处理器被配置用于调用所述程序指令,执行如权利要求1至4任一项所述的方法步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1至4任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911127806.6A CN110928718B (zh) | 2019-11-18 | 2019-11-18 | 一种基于关联分析的异常处理方法、系统、终端及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911127806.6A CN110928718B (zh) | 2019-11-18 | 2019-11-18 | 一种基于关联分析的异常处理方法、系统、终端及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110928718A CN110928718A (zh) | 2020-03-27 |
CN110928718B true CN110928718B (zh) | 2024-01-30 |
Family
ID=69854076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911127806.6A Active CN110928718B (zh) | 2019-11-18 | 2019-11-18 | 一种基于关联分析的异常处理方法、系统、终端及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110928718B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111563002B (zh) * | 2020-05-15 | 2023-07-25 | 中国工商银行股份有限公司 | 交易故障的处理方法和装置、以及电子设备和存储介质 |
CN111984499B (zh) * | 2020-08-04 | 2024-05-28 | 中国建设银行股份有限公司 | 一种大数据集群的故障检测方法和装置 |
CN111930597B (zh) * | 2020-08-13 | 2023-09-22 | 南开大学 | 基于迁移学习的日志异常检测方法 |
CN112052109B (zh) * | 2020-08-28 | 2022-03-04 | 西安电子科技大学 | 基于日志分析的云服务平台事件异常检测方法 |
CN112256660B (zh) * | 2020-10-27 | 2021-11-16 | 天窗智库文化传播(苏州)有限公司 | 一种铸铁生产安全监测方法、装置及服务器 |
CN112364286A (zh) * | 2020-11-23 | 2021-02-12 | 北京八分量信息科技有限公司 | 基于ueba进行异常侦测的方法、装置及相关产品 |
CN112526905B (zh) * | 2020-11-27 | 2022-09-27 | 杭州萤石软件有限公司 | 一种针对指标异常的处理方法及系统 |
CN112559300B (zh) * | 2020-12-14 | 2024-03-01 | 中国工商银行股份有限公司 | 一种故障原因确定系统、方法及装置 |
CN112749305B (zh) * | 2020-12-31 | 2023-05-16 | 广州风创科技有限公司 | 基于人工智能的监测数据管理方法、系统、设备及介质 |
CN112836770B (zh) * | 2021-03-25 | 2024-02-27 | 中国工商银行股份有限公司 | Kpi异常定位分析方法及系统 |
CN112860526A (zh) * | 2021-03-31 | 2021-05-28 | 中国工商银行股份有限公司 | 异常监控方法、装置、电子设备以及计算机可读存储介质 |
CN113282465B (zh) * | 2021-06-17 | 2024-09-06 | 中国建设银行股份有限公司 | 一种故障定位方法、装置、电子设备及计算机存储介质 |
CN113361944B (zh) * | 2021-06-21 | 2022-04-22 | 鑫安利中(北京)科技有限公司 | 基于物联网和人工智能的安全生产指标异常快速感知方法 |
CN113485901B (zh) * | 2021-07-06 | 2022-11-22 | 中国工商银行股份有限公司 | 基于日志和指标的系统评价方法、装置、设备和介质 |
CN113656454B (zh) * | 2021-08-02 | 2023-09-29 | 深圳市联影医疗数据服务有限公司 | 一种综合监管建模统计方法、装置、终端及存储介质 |
CN113760879B (zh) * | 2021-08-24 | 2024-02-27 | 携程旅游信息技术(上海)有限公司 | 数据库异常监测方法、系统、电子设备及介质 |
CN113918937B (zh) * | 2021-09-10 | 2023-07-18 | 广州博依特智能信息科技有限公司 | 一种基于大数据的非法事件识别方法及系统 |
CN113992348B (zh) * | 2021-09-22 | 2022-08-30 | 北京东方通软件有限公司 | 一种一体机的监控方法及系统 |
CN114448777B (zh) * | 2022-03-14 | 2023-12-01 | 年华数据科技有限公司 | 基于数据治理的监控告警方法、装置、设备及存储介质 |
CN115357470B (zh) * | 2022-10-21 | 2023-03-24 | 北京国电通网络技术有限公司 | 信息生成方法、装置、电子设备和计算机可读介质 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008191864A (ja) * | 2007-02-02 | 2008-08-21 | Toshiba Tec Corp | データ処理装置及びその起動方法 |
WO2014043623A1 (en) * | 2012-09-17 | 2014-03-20 | Siemens Corporation | Log-based predictive maintenance |
CN103761173A (zh) * | 2013-12-28 | 2014-04-30 | 华中科技大学 | 一种基于日志的计算机系统故障诊断方法及装置 |
CN104113605A (zh) * | 2014-07-30 | 2014-10-22 | 浪潮软件股份有限公司 | 一种企业云应用开发的监控处理方法 |
CN107885642A (zh) * | 2017-11-29 | 2018-04-06 | 小花互联网金融服务(深圳)有限公司 | 基于机器学习的业务监控方法及系统 |
EP3312725A2 (en) * | 2016-10-21 | 2018-04-25 | Accenture Global Solutions Limited | Application monitoring and failure prediction |
CN108287775A (zh) * | 2018-03-01 | 2018-07-17 | 郑州云海信息技术有限公司 | 一种服务器故障检测的方法、装置、设备及存储介质 |
CN108306980A (zh) * | 2018-03-06 | 2018-07-20 | 北京工业大学 | 一种机务飞行保障大数据日志分析系统 |
CN108595667A (zh) * | 2018-04-28 | 2018-09-28 | 广东电网有限责任公司 | 一种网络异常数据的关联性分析方法 |
CN108874614A (zh) * | 2017-05-11 | 2018-11-23 | 上海宏时数据系统有限公司 | 一种大数据日志智能分析系统及方法 |
CN109542750A (zh) * | 2018-11-26 | 2019-03-29 | 深圳天源迪科信息技术股份有限公司 | 分布式日志系统 |
CN109753499A (zh) * | 2018-12-17 | 2019-05-14 | 云南电网有限责任公司信息中心 | 一种运维监控数据治理方法 |
CN109992479A (zh) * | 2019-03-31 | 2019-07-09 | 西安电子科技大学 | 一种多维度kpi数据异常定位方法、装置及计算机设备 |
CN110134566A (zh) * | 2019-04-29 | 2019-08-16 | 国网上海市电力公司 | 一种基于标签技术的云环境下信息系统性能监测方法 |
CN110223167A (zh) * | 2019-06-19 | 2019-09-10 | 中国工商银行股份有限公司 | 生产交易协同监控方法以及生产交易关联监控方法 |
CN110278102A (zh) * | 2018-03-15 | 2019-09-24 | 勤智数码科技股份有限公司 | 一种it自动化运维系统和方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100997028B1 (ko) * | 2008-05-30 | 2010-11-25 | 성균관대학교산학협력단 | 컨텐츠의 최대 재생 시간과 사용자의 시청시간 혹은청취시간을 고려하는 관심 정보 추천 시스템 및 그 방법 |
-
2019
- 2019-11-18 CN CN201911127806.6A patent/CN110928718B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008191864A (ja) * | 2007-02-02 | 2008-08-21 | Toshiba Tec Corp | データ処理装置及びその起動方法 |
WO2014043623A1 (en) * | 2012-09-17 | 2014-03-20 | Siemens Corporation | Log-based predictive maintenance |
CN103761173A (zh) * | 2013-12-28 | 2014-04-30 | 华中科技大学 | 一种基于日志的计算机系统故障诊断方法及装置 |
CN104113605A (zh) * | 2014-07-30 | 2014-10-22 | 浪潮软件股份有限公司 | 一种企业云应用开发的监控处理方法 |
EP3312725A2 (en) * | 2016-10-21 | 2018-04-25 | Accenture Global Solutions Limited | Application monitoring and failure prediction |
CN108874614A (zh) * | 2017-05-11 | 2018-11-23 | 上海宏时数据系统有限公司 | 一种大数据日志智能分析系统及方法 |
CN107885642A (zh) * | 2017-11-29 | 2018-04-06 | 小花互联网金融服务(深圳)有限公司 | 基于机器学习的业务监控方法及系统 |
CN108287775A (zh) * | 2018-03-01 | 2018-07-17 | 郑州云海信息技术有限公司 | 一种服务器故障检测的方法、装置、设备及存储介质 |
CN108306980A (zh) * | 2018-03-06 | 2018-07-20 | 北京工业大学 | 一种机务飞行保障大数据日志分析系统 |
CN110278102A (zh) * | 2018-03-15 | 2019-09-24 | 勤智数码科技股份有限公司 | 一种it自动化运维系统和方法 |
CN108595667A (zh) * | 2018-04-28 | 2018-09-28 | 广东电网有限责任公司 | 一种网络异常数据的关联性分析方法 |
CN109542750A (zh) * | 2018-11-26 | 2019-03-29 | 深圳天源迪科信息技术股份有限公司 | 分布式日志系统 |
CN109753499A (zh) * | 2018-12-17 | 2019-05-14 | 云南电网有限责任公司信息中心 | 一种运维监控数据治理方法 |
CN109992479A (zh) * | 2019-03-31 | 2019-07-09 | 西安电子科技大学 | 一种多维度kpi数据异常定位方法、装置及计算机设备 |
CN110134566A (zh) * | 2019-04-29 | 2019-08-16 | 国网上海市电力公司 | 一种基于标签技术的云环境下信息系统性能监测方法 |
CN110223167A (zh) * | 2019-06-19 | 2019-09-10 | 中国工商银行股份有限公司 | 生产交易协同监控方法以及生产交易关联监控方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110928718A (zh) | 2020-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110928718B (zh) | 一种基于关联分析的异常处理方法、系统、终端及介质 | |
CN110708204B (zh) | 一种基于运维知识库的异常处理方法、系统、终端及介质 | |
Landauer et al. | System log clustering approaches for cyber security applications: A survey | |
CN111984499B (zh) | 一种大数据集群的故障检测方法和装置 | |
US8209567B2 (en) | Message clustering of system event logs | |
CN111930547A (zh) | 一种故障定位方法、装置及存储介质 | |
CN103761173A (zh) | 一种基于日志的计算机系统故障诊断方法及装置 | |
CN113254255B (zh) | 一种云平台日志的分析方法、系统、设备及介质 | |
CN112988509B (zh) | 一种告警消息过滤方法、装置、电子设备及存储介质 | |
CN112306820B (zh) | 一种日志运维根因分析方法、装置、电子设备及存储介质 | |
CN111597550A (zh) | 一种日志信息分析方法及相关装置 | |
CN111581057B (zh) | 一种通用日志解析方法、终端设备及存储介质 | |
CN112131249A (zh) | 一种攻击意图识别方法及装置 | |
CN111258798A (zh) | 监控数据的故障定位方法、装置、计算机设备及存储介质 | |
CN114327964A (zh) | 业务系统的故障原因处理方法、装置、设备及存储介质 | |
CN116841779A (zh) | 异常日志检测方法、装置、电子设备和可读存储介质 | |
CN110677271B (zh) | 基于elk的大数据告警方法、装置、设备及存储介质 | |
CN115118574A (zh) | 一种数据处理方法、装置及存储介质 | |
Bailis et al. | Macrobase: Analytic monitoring for the internet of things | |
CN117170922A (zh) | 日志数据分析方法、装置、终端设备以及存储介质 | |
Kuang et al. | Knowledge-aware Alert Aggregation in Large-scale Cloud Systems: a Hybrid Approach | |
US20200210305A1 (en) | System, device and method for frozen period detection in sensor datasets | |
Jain et al. | Extracting the textual and temporal structure of supercomputing logs | |
CN113535458B (zh) | 异常误报的处理方法及装置、存储介质、终端 | |
CN115102848A (zh) | 日志数据的提取方法、系统、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |