CN106209405B - 故障诊断方法及装置 - Google Patents

故障诊断方法及装置 Download PDF

Info

Publication number
CN106209405B
CN106209405B CN201510226077.5A CN201510226077A CN106209405B CN 106209405 B CN106209405 B CN 106209405B CN 201510226077 A CN201510226077 A CN 201510226077A CN 106209405 B CN106209405 B CN 106209405B
Authority
CN
China
Prior art keywords
log
risk
different information
canonical
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510226077.5A
Other languages
English (en)
Other versions
CN106209405A (zh
Inventor
马险峰
庞哲翀
乔栋
屈立学
孟利青
王升元
郄威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Group Inner Mongolia Co Ltd
Original Assignee
China Mobile Group Inner Mongolia Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Group Inner Mongolia Co Ltd filed Critical China Mobile Group Inner Mongolia Co Ltd
Priority to CN201510226077.5A priority Critical patent/CN106209405B/zh
Publication of CN106209405A publication Critical patent/CN106209405A/zh
Application granted granted Critical
Publication of CN106209405B publication Critical patent/CN106209405B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种故障诊断方法及装置,所述方法包括:获取业务系统的日志;对所述日志进行规范化处理,形成格式规范化的规范日志;搜索所述规范日志中的异常关键字;及当在所述规范日志中检索到异常关键字时,进入第一风险处理流程。

Description

故障诊断方法及装置
技术领域
本发明涉及信息处理领域的信息处理技术,尤其涉及一种故障诊断方法及装置。
背景技术
业务系统又称为业务处理系统,用于面向用户提供业务服务的系统,具体如中国移动的通信业务处理系统。目前伴随着电子信息及通信技术的发展,业务系统也迅速发展,网络规模迅速扩大,主机、网络设备、应用软件数量不断增多,业务系统复杂性已经到了运维监控人员难于完全掌控的程度。
随着系统提供的业务的丰富,业务系统日益繁杂且升级周期也越来越短,者导致业务故障问题时有发生,进而造成为业务中断、用户感知差及服务质量考核不达标等一系列问题。
为了发现业务故障与故障风险,现有技术中提出利用监控系统监控故障和风险技术方案。所述利用监控系统监控故障的方法具体可包括
首先,通过监控系统实时基于代理AGENT或无代理协议,采集业务系统的系统和业务指标,或业务系统以TRAP方式(发生故障时触发方式)主动向监控系统发送故障或问题;
其次,由监控系统根据采集数据或接收到的故障或问题告警处理。
然而上述方式通常有以下问题:
问题1:实践证明,这种监控方式有很大的时延滞后性,往往是用户投诉后才发现业务故障和问题。
问题2:随着业务的发展,业务系统日益庞大和复杂;具体如通信行业的业务支撑中心由于业务系统的迅速发展,系统和网络规模迅速扩大,主机、网络设备、应用软件数量不断增多、业务资源访问、操作量不断增加,造成系统复杂,当发生业务或系统故障时,采用现有的方式很难定位导致出现业务故障和问题的根本原因,从而很难迅速确定故障清除决策,从而导致用户投诉的进一步增大。
此外,采用监控系统进行庞大的业务系统进行全面监控,显然会导致监控系统的成本高的问题,若仅对业务系统的部分业务或部分网络进行监控,显然会存在监控死角,尤其是业务系统不断壮大和复杂的今天,这就导致的监控成本以及监控效益之间的矛盾日益激化。
发明内容
有鉴于此,本发明实施例期望提供一种故障诊断方法及装置,至少解决现有技术中业务故障发现和诊断时延大的问题。
为达到上述目的,本发明的技术方案是这样实现的:
本发明实施例第一方面提供一种故障诊断方法,所述方法包括:
获取业务系统的日志;
对所述日志进行规范化处理,形成格式规范化的规范日志;
搜索所述规范日志中的异常关键字;
当在所述规范日志中检索到异常关键字时,进入第一风险处理流程。
优选地,所述方法还包括:
当在所述规范日志中未检索所述异常关键字时,将所述规范日志与模板日志进行比对,确定规范日志与模板日志之间的差异信息;其中,所述模板日志为所述业务系统正常工作时形成的日志;
对所述差异信息进行业务数值分析,形成分析结果;
当所述分析结果表明所述业务数值异常时,进入第二风险处理流程。
优选地,所述方法还包括:
当所述分析结果表明所述业务数值正常时,对所述差异信息进行异常语义识别,形成识别结果;
依据所述识别结果,确定所述差异信息是否满足预设风险触发条件;
当所述差异信息满足所述预设风险触发条件时,进入第三风险处理流程。
优选地,所述依据所述识别结果,确定所述差异信息是否满足预设风险触发条件,包括:
依据所述识别结果确定所述差异信息中包括的每一条异常语义的对应的风险概率以及识别权值;其中,所述识别权值为所述识别权值对应的所述异常语义被识别出的概率值;所述风险概率表示所述风险概率对应的异常语义能导致风险的概率值;
依据所述风险概率及所述识别权值,按照预设函数关系进行风险率计算;
将所述风险率与预设阀值进行比较,形成比较结果;
依据所述比较结果,确定所述差异信息是否满足预设风险触发条件。
优选地,所述方法还包括:
对所述差异信息进行信息筛选,去除与故障诊断无关的指定差异信息;
所述对所述差异信息进行业务数值分析,形成分析结果为:
对已去除指定差异信息的差异信息进行业务数值分析,形成分析结果。
优选地,所述获取业务系统的日志包括:
获取所述业务系统的平台日志、数据库日志、中间件日志以及应用程序日志。
优选地,所述方法还包括:
按照预设分类策略对所述平台日志、数据库日志、中间件日志以及应用程序日志进行日志分类;
所述对所述日志进行规范化处理,形成格式规范化的规范日志,包括:
依据所述日志分类,对所述日志按类别进行规范化处理。
本发明实施例第二方面提供一种故障诊断装置,所述装置包括:
获取单元,用于获取业务系统的日志;
规范化处理单元,用于对所述日志进行规范化处理,形成格式规范化的规范日志;
搜索单元,用于搜索所述规范日志中的异常关键字;
风险处理单元,用于当在所述规范日志中检索到异常关键字时,进入第一风险处理流程。
优选地,比对单元,用于当在所述规范日志中未检索所述异常关键字时,将所述规范日志与模板日志进行比对,确定规范日志与模板日志之间的差异信息;其中,所述模板日志为所述业务系统正常工作时形成的日志;
分析单元,用于对所述差异信息进行业务数值分析,形成分析结果;
所述风险处理单元,还用于当所述分析结果表明所述业务数值异常时,进入第二风险处理流程。
优选地,所述装置还包括:
识别单元,用于当所述分析结果表明所述业务数值正常时,对所述差异信息进行异常语义识别,形成识别结果;
确定单元,用于依据所述识别结果,确定所述差异信息是否满足预设风险触发条件;
所述风险处理单元,还用于当所述差异信息满足所述预设风险触发条件时,进入第三风险处理流程。
本发明实施例故障诊断方法及装置,基于业务系统自身生成的日志信息进行业务故障的诊断,显然相对于现有的监控系统,通过监控设备采集监控数据,从数据采集或获取环节中,显然减少了设备的硬件和运营投入,从而降低了故障诊断的成本。其次,在进行日志分析时,首先将对日志进行规范化处理,形成规范化日志,减少异常关键字的搜索的文档的长度或篇幅,从而提高搜索效率;这样能够提高故障诊断的效率,减少响应时延,尽早的诊断出是否出现了故障和异常;并及时做出对应处理,显然可以减少用户投诉。再次,由于是基于日志分析处理来进行故障诊断,在业务系统中增加硬件设备或增加业务服务时,不用如现有技术中一样相应的增加监控系统的监控设备,可以采用原有的故障诊断装置或平台对日志进行相应的分析即可,从而具有适应强的优点。
附图说明
图1为本发明实施例所述的故障诊断方法的流程示意图之一;
图2为本发明实施例所述的故障诊断方法的流程示意图之二;
图3为本发明实施例所述的确定风险率的流程示意图;
图4为本发明实施例所述的故障诊断装置的结构示意图之一;
图5为本发明实施例所述的故障诊断装置的结构示意图之二;
图6为本发明实施例所述的故障诊断方法的流程示意图之三;
图7为本发明实施例所述的故障诊断方法的流程示意图之四;
图8为本发明实施例所述的故障诊断方法的流程示意图之五;
图9为本发明示例提供的一份ORACEL操作日志的示意图。
具体实施方式
以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述。
方法实施例:
如图1所示,本实施例提供一种故障诊断方法,所述方法包括:
步骤S110:获取业务系统的日志;
步骤S120:对所述日志进行规范化处理,形成格式规范化的规范日志;
步骤S130:搜索所述规范日志中的异常关键字;
步骤S140:当在所述规范日志中检索到异常关键字时,进入第一风险处理流程。
在本实施例所述的故障诊断方法可用于对业务系统进行业务故障和风险确定和诊断。在具体实现时,通常业务系统在提供服务的同时,还将根据自身的运行生成对应的日志。所述日志按照日志生成策略将记录有服务系统各项业务服务的业务请求、响应及触发等各项与业务服务关联的数据。
执行所述步骤S110至步骤S120的可为故障诊断装置或平台,所述步骤S110可为收集业务系统中的日志,具体如接收业务系统发送的日志信息。具体如,所述业务系统在每一完成一个服务响应或拒绝一个服务响应之后,均可以将对应的日志推送给故障诊断装置或平台,所述业务系统还基于所述故障诊断装置或平台的请求来发送所述日志。此外,所述业务系统也可以周期性的发送所述日志,具体如以1分钟或1刻钟为一个时间单元发送所述日志。
在本实施例中充分利用业务系统本身生成的日志信息进行异常信息、业务故障和风险的诊断,相对于现有的监控系统通过增设实时监控设备来监控业务系统的每一个部件,显然至少减少了监控设备的硬件成本和运行成本,显然具有成本低的优点。
在步骤S110中当所述故障诊断装置或平台采用方式采集业务系统的日志时,可以按照文件指针、时间戳或文件比对方式进行增量采集,这样方便可以简化日志的后续处理。
在步骤S120中将对日志进行规范化处理,所述规范化处理具体可包括去掉日志中时间、空格行或注释行的等不影响业务故障分析的信息,以缩短日志的长度,减少步骤S130中异常关键字搜索的文本长度,以提高业务故障和风险识别的效率,显然具有效率高、时延小及用户投诉少的优点。
进一步的步骤S120中可根据需要可以灵活的确定基于日志的故障诊断的周期,具体如针对于通信业务系统,可以在通信高峰期(如白天),设置叫短的周期,可以在通信低峰期(如午夜)设置较长的周期,本实施例所述的方法具有灵活性高且能自主控制故障诊断装置或平台的工作周期以平衡运营成本以及效率之间的关系,具体如午夜监控周期长,显然可以节省能耗及缓速故障诊断装置或平台的老化。
所述异常关键字为预先确定的关键字;所述异常关键字可以为基于业务故障和异常数据进行分析获得的关键字,也可以是基于异常请情况下某一个关键字、词或字符串出现的频率确定的关键字。总之当所述日志中包括所述异常关键字时,可认为所述日志系统出现异常和故障风险的概率较高。
作为本实施例的进一步优化,如图2所示,所述方法还包括:
步骤S150:当在所述规范日志中未检索所述异常关键字时,将所述规范日志与模板日志进行比对,确定规范日志与模板日志之间的差异信息;其中,所述模板日志为所述业务系统正常工作时形成的日志;
步骤S160:对所述差异信息进行业务数值分析,形成分析结果;
步骤S170:当所述分析结果表明所述业务数值异常时,进入第二风险处理流程。
所述模板日志可为事先确定的日志,在步骤S150中将规范日志与模板日志进行比对时,采用模糊比对。所述模糊比对为不要求两个日志中的所有文字的表达方式是一样的,而是要求两个日志中的文字表达的内容实质是一样的。这样能够确定出规范日志和模板日志之间的实质性差异,相对于字面比对,会减少规范日志和模板日志之间的形式差异,为后续进行业务数值分析提高效率,从而能进一步提高故障诊断的效率。于此同时,采用实质性内容的模糊比对,有利于快速精确的定位导致业务故障的问题点。
基于上述业务数值是否正常的分析,当所述分析结果表明所述业务数值正常时,对所述差异信息进行异常语义识别,形成识别结果;
依据所述识别结果,确定所述差异信息是否满足预设风险触发条件;
当所述差异信息满足所述预设风险触发条件时,进入第三风险处理流程。
所述异常语义识别为对差异信息中异常语句内容的识别。所述业务数值表示的业务的数值,具体如连接请求失败数及连接请求成功率、当期带宽等表征业务服务质量的数值或业务提供状态的数值等信息。
如图3所示,所述依据所述识别结果,确定所述差异信息是否满足预设风险触发条件可包括:
步骤S101:依据所述识别结果确定所述差异信息中包括的每一条异常语义的对应的风险概率以及识别权值;其中,识别权值为所述识别权值对应的所述异常语义被识别出的概率值;所述风险概率表示所述风险概率对应的异常语义能导致风险的概率值;识别权值是识别故障的关键因素之一,通常一个关键词对应的识别权值越高,被识别出的概率就越高;
步骤S102:依据所述风险概率及所述识别权值,按照预设函数关系进行风险率计算;
步骤S103:将所述风险率与预设阀值进行比较,形成比较结果;
步骤S104:依据所述比较结果,确定所述差异信息是否满足预设风险触发条件。
在具体实现时,所述故障诊断装置或平台中可事先存储有异常语义的相关信息。所述异常语义的相关信息可以以表格的形式进行存储,具体可如下表:
具体操作时,将上述表格的每一个异常语义与差异信息中的文本进行比对,确定是否包括对应的异常语义;当包括至少一个所述异常语义时,查询上述表格可以依照效率函数关系,计算风险率。
P=k×(A1×ω1+A2×ω2+...+An×ωn)×1/m
函数关系说明:
(1)m表示Ai取非零值的个数。
(2)Ai为:若日差异信息中第i个异常语义与其匹配,Ai取值1,否则取值0。
(3)k的定义如下:若日志中存在异常语义时k值为1,否则k值为0。
(4)所述P为上述风险率。
(5)所述ωn为第n个异常语义的识别权值。
将计算出的所述P与预先设置的预设阀值比较;当所述P大于所述预设阀值时,可认为所述差异信息满足预设风险触发条件,否则可认为不满足预设风险触控条件。
上述表格方式中包括识别方式,所述识别方式除了“包括”以外,还可包括“排除”,排除的使用是针对如程序正常运行完毕后,正常会输出“the process is ok”(进程运行正常),如果没有输出当前关键词,即认为进程出现故障;当识别方式为“包括”时,则所述差异信息包括对应的异常语义则确定对应的Ai为0;当识别方式为“排除”时,这种识别方式对应的异常语义可认为是日志中必须包括的关键词,否则认为当前业务或系统出现故障风险;
上述识别方式具有故障诊断精确度高的优点,在具体实现时不局限于上述方法,具体如还可以直接根据差异信息中包括的异常语义的个数和/或异常语义出现的频次来确定是否满足预设风险触发条件。所述异常语义的个数为:差异信息中不同的异常语义的个数。所述异常语义出现的频次则包括同一个异常语义出现多次的情形下。具体如某一日志的差异信息中出现了3个异常语义;但是其中有一个异常语义出现了6次,则所述异常语义出现的频次为8次。
此外,本实施例所述方法还包括:
对所述差异信息进行信息筛选,去除与故障诊断无关的指定差异信息;
所述对所述差异信息进行业务数值分析,形成分析结果为:
对已去除指定差异信息的差异信息进行业务数值分析,形成分析结果。
所述去除与故障诊断无关的指定差异信息,具体如,删除差异信息中服务数据的时间信息及设备信息等信息。在具体实现时,若诊断出当前业务系统有出现业务故障,所述设备信息在后续诊断故障位置时,协助确定故障位置。但是就在本实施例形成所述分析结果的阶段,为了减少待分析信息量,可以通过去除该部分内容,实现分析速率的提升,从而进一步提高响应速率。
所述步骤S110可包括:
获取所述业务系统的平台日志(此处的所述平台日志可如服务器的syslog日志、网络交换机的系统日志等)、数据库日志、中间件日志以及应用程序日志。
所述数据库的日志为业务系统维护各种数据的数据库的日志。中间件(middleware)是基础软件的一大类,属于可复用软件的范畴。顾名思义,中间件处于操作系统软件与用户的应用软件的中间。中间件在操作系统、网络和数据库之上,应用软件的下层,总的作用是为处于自己上层的应用软件提供运行与开发的环境,帮助用户灵活、高效地开发和集成复杂的应用软件。通常中间件还可定义为一种独立的系统软件或服务程序,分布式应用软件借助这种软件在不同的技术之间共享资源,中间件位于客户机服务器的操作系统之上,管理计算资源和网络通信。中间件是一类软件,而非一种软件;中间件不仅仅实现互连,还要实现应用之间的互操作;中间件是基于分布式处理的软件,最突出的特点是其网络通信功能。显然中间件出现异常也会导致业务出现异常。
应用程序日志,具体的如语音通信应用程序日志、社交应用程序的日志等应用程序日志。
在步骤S110中的日志不仅包括各种平台等硬件设备的日志,同时还包括软件不同层面可能会导致业务故障的日志,这样获取的日志能够全面的反映业务系统的当前运行情况,以便能够准确确认当前业务系统是否出现故障。
所述方法还包括:
按照预设分类策略对所述平台日志、数据库日志、中间件日志以及应用程序日志进行日志分类;
所述步骤S120包括:
依据所述日志分类,对所述日志按类别进行规范化处理。
为了方便对日志进行规范化处理,对获取的日志进行分类处理,具体如按日志生成主体分类,可以分为平台日志、数据库日志、中间件日志以及应用程序日志等,如按照业务系统的网络架构分类,可以分为用户设备日志、网络日志以及服务器日志等。在本实施例中按按照生成主体进行日志的分类。
在对日志进行分类后,根据日志的分类进行规范化处理。不同类别的日志可能对应相同或不同的规范化处理。
在具体实现时,上述方法的第一风险处理流程、第二风险处理流程以及第三风险处理流程可以相同也可以不同
当第一风险处理流程、第二风险处理流程以及第三风险处理流程不同时,具有以下优点:由于在不同阶段诊断出业务系统业务故障,表征了故障类型和故障的严重程度可以不同,故可能采用与之相匹配的风险处理流程来进行信息处理,确定出具体出现了什么类型的故障及如何进行风险去除等问题。
综合上述,本实施例提供了一种基于日志的故障诊断装置,能够低成本高效率的确诊出业务系统当前是否出现业务故障,能够大大的降低用户的投诉率。
设备实施例:
如图4所示,本实施例提供一种故障诊断装置,所述装置包括:
获取单元110,用于获取业务系统的日志;
规范化处理单元120,用于对所述日志进行规范化处理,形成格式规范化的规范日志;
搜索单元130,用于搜索所述规范日志中的异常关键字;
风险处理单元140,用于当在所述规范日志中检索到异常关键字时,进入第一风险处理流程。
所述获取单元110具体结构可包括通信接口,所述通信接口可包括有线接口或无线接口;所述有线接口可包括光缆接口和电缆接口;所述无线接口可包括收发天线等结构,用于从业务系统接收或采集所述日志。
所述规范化处理单元120、搜索单元130及风险处理单元140可对应有处理器和存储介质;所述处理器与所述存储介质之间通过基站内部的通信接口相连,所述内部的通信接口可包括内部总线等结构。所述存储介质上存储有可执行指令;所述处理器通过执行所述可执行指令,可以完成所述分组单元110以及获取单元120的功能。所述规范化处理单元120、搜索单元130及风险处理单元140其中的任意两个可以对集成应于同一处理器,也可以分别对应不同的处理器。当集成对应一处理器时,所述处理器可以采用时分复用或并发线程等方式完成不同的单元的功能。所述处理器可以应用处理器AP、中央处理器CPU、数字信号处理器DSP、微处理器MCU或可编程阵列PLC等具有信息处理功能的电子器件。
本实施例所述的故障诊断装置可以用于实现方法实施例中所述的故障诊断方法,用于确定当前业务系统是否出现业务故障,具有时延小、效率高以及成本低等优点。
如图5所示,所述装置还包括:
比对单元150,用于当在所述规范日志中未检索所述异常关键字时,将所述规范日志与模板日志进行比对,确定规范日志与模板日志之间的差异信息;其中,所述模板日志为所述业务系统正常工作时形成的日志;
分析单元160,用于对所述差异信息进行业务数值分析,形成分析结果;
所述风险处理单元140,还用于当所述分析结果表明所述业务数值异常时,进入第二风险处理流程。
所述比对单元150及分析单元160,可上述规范化处理单元120、搜索单元130及风险处理单元140的结构相似,在此就不再详细介绍了。本实施例中所述的故障诊断装置,通过所述比对单元150和分析单元160的增设,可以将规范日志与模板日志进行比对,确定两个日志之间的差异信息;从而相对于对所有的数据进行分析处理,减少了信息分析量,提高了分析效率;对差异信息进行业务数值分析,形成分析结果;对业务数值进行分析,可以简便快速的知道是否出现业务数值异常。所述业务数值异常如某一段的设备流量远低于正常流量范围,这可能是出现了网络中断或网络拥塞现象,从而可确认出现网络服务业务故障;能够实现精确的业务故障诊断和分析。
本实施例中所述的比对单元采用模糊比对,模糊比对的具体实现结构可以参见现有搜索引擎中的比对结构。
此外,所述装置还包括:
识别单元,用于当所述分析结果表明所述业务数值正常时,对所述差异信息进行异常语义识别,形成识别结果;
确定单元,用于依据所述识别结果,确定所述差异信息是否满足预设风险触发条件;
所述风险处理单元,还用于当所述差异信息满足所述预设风险触发条件时,进入第三风险处理流程。
本实施例中增设的识别单元和确定单元的结构同样可是具有信息处理功能的处理器。
本实施例所述的装置不仅采用异常关键字进行业务故障的发现、还将采用与模板日志的比对、业务数值的分析以及异常语义的识别,从多个方面确定业务系统是否出现故障,具有效率高及精确度高的优点。
所述确定单元,具体用于依据所述识别结果确定所述差异信息中包括的每一条异常语义的对应的风险概率以及识别权值;其中,所述识别权依据所述风险概率及所述识别权值,按照预设函数关系进行风险率计算;将所述风险率与预设阀值进行比较,形成比较结果;及依据所述比较结果,确定所述差异信息是否满足预设风险触发条件。
所述却床能单元可包括查表模块等比双模块结构;所述查表模块可包括具有信息查询的处理器;所述比对模块可包括比较器或具有比较功能的处理器。
所述装置还可包括:
删除单元,用于对所述差异信息进行信息筛选,去除与故障诊断无关的指定差异信息;
所述分析单元,具体用于对已去除指定差异信息的差异信息进行业务数值分析,形成分析结果。
所述获取单元,具体可用于获取所述业务系统的平台日志、数据库日志、中间件日志以及应用程序日志。
所述装置还包括分类单元,所述分类单元用于按照预设分类策略对所述平台日志、数据库日志、中间件日志以及应用程序日志进行日志分类;
所述规范化处理单元,具体用于依据所述日志分类,对所述日志按类别进行规范化处理。
综合上述,本实施例所述的装置可为上述方法实施例提供实现硬件,同样的具有业务故障诊断效率高及精确度高的优点。
在具体实现时,所述装置可以对应一台物理设备,也可以是多台物理设备搭建而成的平台。当所述抓装置对应的物理结构为包括多台设备的平台时,每一台物理设备可以完成不同的功能,也可以是分布式完成某一类日志的处理。
以下结合任意实施例给出两个具体示例:
示例一:
步骤一:通过日志收集平台收集系统平台、数据库、中间件与应用程序的日志。其中,图5采集的日志包括系统日志、应用程序日志、数据库/中间件日志以及业务系统形成的其他日志;图5中所述的系统日志相当于上述实施例中所述的平台日志。
步骤二:日志分类,即把收集的日志进行分类,如可分为数据库类型、中间件类型、操作系统类型及应用程序类型的日志,并进行分类后的日志进行规范化处理。
步骤三:日志规范化处理,即对进行了规范化处理后的日志按类型进行关键词分析,如果发现异常关键字,即进入风险处理流程。
步骤四:日志分析、日志比对以及日志排查等处理;所述日志排查包括异常关键字的排查,所述日志比对可为把规范化处理后的日志与模板日志进行比对;所述日志分析可包括通过对比对确定的差异信息进行业务数值是否在正常范围内的分析,还可包括语音分析。通过上述日志分析、日志比对以及日志排查后将形成对比分析报告。
步骤五:依据所述对比分析报告对日志出现异常的业务系统的硬件和软件进行重点监控和维护、并进行告警处理以及消息通知等后续处理,告知到工作人员及时做出相应决策,以避免用户投诉。
在上述日志比对过程中,为将进行了规范化处理后日志与标准封装模板进行模糊比对,找出差异文本。针对差文本,去除正常差异处理内容(如时间差异),接着对业务数值项范围进行分析,超出范围即进入风险处理流程。此处的标准封装模板即详单于上述模板日志。所述正常差异处理内容为不会影响业务故障诊断的内容。在步骤四中未发现异常的,最后日志分析即最后进行异常语义识别,如果识别成功,则认为有相关风险,进入风险处理流程。
示例二:
图7为以业务系统中应用系统进行故障诊断方法的流程图,具体可包括:
第一步:应用系统运行的同时形成日志。
第二步:故障诊断装置获取了日志以后,进行分类和规范化处理,形成规范日志。
第三步:将规范日志和模板日志进行比对获得差异信息。
第四步:将预先配置好的异常关键字进行匹配,实现文本比对识别;
第五步:在文本比对识别没有发现异常后,进行异常语义分析,并根据分析结果进行风险输出。
在图7中还显示有异常关键字配置以及标准规则配置步骤,这些步骤可包括接收用户输入或外设输入的配置信息。所述标准规则配置可包括上述实施例中风险触发条件的配置。所述异常关键字配置同样也可以配置形成上述方法实施例中所示的表格。
示例三:
图8为基于上述任意实施例所述故障诊断方法的一个详细示例:
所述方法包括:
步骤S1:采集日志;
步骤S2:日志分类;
步骤S3:日志规范化处理;
步骤S4:判断是否有异常关键字,若为是则进入步骤S11,若为否则进入步骤S5;
步骤S5:将规范化处理后的日志与模板日志进行模糊比对;
步骤S7:进行语义模糊处理识别;
步骤S8:判断是否有异常语义,若为是进入步骤S11,若为否则进入步骤S9:
步骤S9:当确定无异常予以时,获得差异文件信息;
步骤S10:判断是否更创新模板日志;
步骤S11:业务故障处理流程;即对应上述实施例中的风险处理流程。
在具体实现时,还可以进行对步骤S6形成的差异信息进行业务数值是否超出正常范围的比对处理,当经过上述异常关键字匹配,与模板日志的比对及异常语义的识别后,依然未确定出异常,则可认为该日正为正常日志,此时业务系统出现业务故障的概率很低。后续为了提高模板日志包括的正常信息的信息量,还可以根据步骤S9输出的差异文件信息来更新所述模板日志。
在步骤S10中还将进行是否需要更新的判断,具体可如,步骤S9中的差异文件信息在指定时间内出现的次数达到指定次数时,且未接收到用户投诉时,可以准确无误确定该差异文件信息中的信息为正常信息时,可以将这些信息直接添加或经过信息汇总处理后添加到模板日志中,更新模板日志,以提高后续业务故障的分析效率。当步骤S10中的判断为否时,即可结束本次业务故障诊断方法或进入其他处理流程。
综合上述,本申请中所述的故障诊断方法,使用的时间越长则通常准确率、精确度及效率更高。
以下结合ORACLE数据库提供示例四:
自动收集各种系统与应用的日志信息,如ORACLE数据库的数据库日志。数据库日志包括ORACLE归档日志和ORACLE操作日志等日志。然后通过采集的数据源类型进行分类。图9所示为一份ORACLE操作日志。
显然通过图9可知,在所述日志内包括一些业务故障诊断无关的信息,具体如日志包括的空行及“…”等信息。
对所述日志进行标准规范化处理,即如去掉时间戳等,形成规范的用于比对的规范日志。通常日志以文本的形式呈现。
对规范日志进行异常关键字识别。
经确定没有发现异常关键词然后进入与ORACLE标准日志输出模板日志进行比对。
经过比对发现图9所示的日志与模板日志有差异,具体如差异信息(updatefailed等信息。
进入异常语义文本识别信息处理;由于系统中异常语义配置有以下表所示的信息,即针对ORACEL风险编号为“C002”的“ORACEL数据更新异常”的语义配置:
当检测到“oracle数据更新异常”时,发现有关键字“org.springframework.jdbc.BadSqlGrammarException”在差异信息中,再进行非关键字,即“bad SQL grammar,gmf”、“error occurred”也在其中,即开始风险识别计算,根据上述分析公式,即:
P=k×(A1×ω1+A2×ω2+...+An×ωn)×1/m
代入相关关实际信息:
即有:P(oracle数据更新异常风险)=1×(1×1.5+1×1+1×0.5)×1/3=100%
结论:
由于风险语义C002(oracle数据更新异常风险)的风险下限p为80%,而计算得到风险率P为100%,高于低限值p,即有风险,当前风险等级为3,即进入风险级别为3的告警与风险处理流程。
在上述任意表格中出现的风险故障等级表征的风险将造成的故障异常严重程度;通常等级越高,则发生对应业务故障导致的故障损失越严重。
在上述列表中还包括关键标识;所述关键标识为Y时,对应的为识别结果包括对应的关键词时表示出现异常。所述关键标识为N时,对应的识别结果不包括对应的关键词时表示出现异常。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理模块中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (8)

1.一种故障诊断方法,其特征在于,所述方法包括:
获取业务系统的日志;
对所述日志进行规范化处理,形成格式规范化的规范日志,其中,所述规范化处理包括去掉所述日志中不影响业务故障分析的信息;
搜索所述规范日志中的异常关键字;
当在所述规范日志中检索到异常关键字时,进入第一风险处理流程;
所述方法还包括:
当在所述规范日志中未检索所述异常关键字时,将所述规范日志与模板日志进行比对,确定规范日志与模板日志之间的差异信息;其中,所述模板日志为所述业务系统正常工作时形成的日志;
对所述差异信息进行业务数值分析,形成分析结果;
当所述分析结果表明所述业务数值异常时,进入第二风险处理流程。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述分析结果表明所述业务数值正常时,对所述差异信息进行异常语义识别,形成识别结果;
依据所述识别结果,确定所述差异信息是否满足预设风险触发条件;
当所述差异信息满足所述预设风险触发条件时,进入第三风险处理流程。
3.根据权利要求2所述的方法,其特征在于,
所述依据所述识别结果,确定所述差异信息是否满足预设风险触发条件,包括:
依据所述识别结果确定所述差异信息中包括的每一条异常语义的对应的风险概率以及识别权值;其中,所述识别权值为所述识别权值对应的所述异常语义被识别出的概率值;所述风险概率表示所述风险概率对应的异常语义能导致风险的概率值;
依据所述风险概率及所述识别权值,按照预设函数关系进行风险率计算;
将所述风险率与预设阀值进行比较,形成比较结果;
依据所述比较结果,确定所述差异信息是否满足预设风险触发条件。
4.根据权利要求1所述的方法,其特征在于,
所述方法还包括:
对所述差异信息进行信息筛选,去除与故障诊断无关的指定差异信息;
所述对所述差异信息进行业务数值分析,形成分析结果为:
对已去除指定差异信息的差异信息进行业务数值分析,形成分析结果。
5.根据权利要求1所述的方法,其特征在于,
所述获取业务系统的日志包括:
获取所述业务系统的平台日志、数据库日志、中间件日志以及应用程序日志。
6.根据权利要求5所述的方法,其特征在于,
所述方法还包括:
按照预设分类策略对所述平台日志、数据库日志、中间件日志以及应用程序日志进行日志分类;
所述对所述日志进行规范化处理,形成格式规范化的规范日志,包括:
依据所述日志分类,对所述日志按类别进行规范化处理。
7.一种故障诊断装置,其特征在于,所述装置包括:
获取单元,用于获取业务系统的日志;
规范化处理单元,用于对所述日志进行规范化处理,形成格式规范化的规范日志;
搜索单元,用于搜索所述规范日志中的异常关键字;
风险处理单元,用于当在所述规范日志中检索到异常关键字时,进入第一风险处理流程;
所述装置还包括:
比对单元,用于当在所述规范日志中未检索所述异常关键字时,将所述规范日志与模板日志进行比对,确定规范日志与模板日志之间的差异信息;其中,所述模板日志为所述业务系统正常工作时形成的日志;
分析单元,用于对所述差异信息进行业务数值分析,形成分析结果;
所述风险处理单元,还用于当所述分析结果表明所述业务数值异常时,进入第二风险处理流程。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
识别单元,用于当所述分析结果表明所述业务数值正常时,对所述差异信息进行异常语义识别,形成识别结果;
确定单元,用于依据所述识别结果,确定所述差异信息是否满足预设风险触发条件;
所述风险处理单元,还用于当所述差异信息满足所述预设风险触发条件时,进入第三风险处理流程。
CN201510226077.5A 2015-05-06 2015-05-06 故障诊断方法及装置 Active CN106209405B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510226077.5A CN106209405B (zh) 2015-05-06 2015-05-06 故障诊断方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510226077.5A CN106209405B (zh) 2015-05-06 2015-05-06 故障诊断方法及装置

Publications (2)

Publication Number Publication Date
CN106209405A CN106209405A (zh) 2016-12-07
CN106209405B true CN106209405B (zh) 2019-11-08

Family

ID=57459028

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510226077.5A Active CN106209405B (zh) 2015-05-06 2015-05-06 故障诊断方法及装置

Country Status (1)

Country Link
CN (1) CN106209405B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844576B (zh) * 2017-01-06 2020-10-13 北京蓝海讯通科技股份有限公司 一种异常检测方法、装置和监控设备
CN107341068A (zh) * 2017-06-28 2017-11-10 北京优特捷信息技术有限公司 通过自然语言处理进行运维排障的方法和装置
CN107577566A (zh) * 2017-08-21 2018-01-12 中车唐山机车车辆有限公司 列车显示屏的故障诊断方法及装置
CN108304447A (zh) * 2017-12-07 2018-07-20 北京趣拿软件科技有限公司 异常信息的处理方法、装置、存储介质和处理器
CN108055152B (zh) * 2017-12-11 2020-11-06 国网河南省电力公司信息通信公司 基于分布式服务日志的通信网络信息系统异常检测方法
CN107943009A (zh) * 2017-12-21 2018-04-20 安徽马钢自动化信息技术有限公司 一种工业控制系统故障定位方法
CN108259268B (zh) * 2017-12-30 2021-02-19 未鲲(上海)科技服务有限公司 网络监测数据处理方法、装置、计算机设备和存储介质
CN110401550A (zh) * 2018-04-24 2019-11-01 贵州白山云科技股份有限公司 客户异常的自动化诊断方法、装置、存储介质及计算设备
CN109344130A (zh) * 2018-09-27 2019-02-15 郑州云海信息技术有限公司 一种日志管理方法和装置
CN110362545A (zh) * 2019-05-27 2019-10-22 平安科技(深圳)有限公司 日志监控方法、装置、终端与计算机可读存储介质
CN111639016A (zh) * 2020-05-29 2020-09-08 北京合力思腾科技股份有限公司 大数据日志分析方法、装置及计算机存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102065416A (zh) * 2009-11-18 2011-05-18 成都市华为赛门铁克科技有限公司 日志格式化方法、装置及系统
CN103166794A (zh) * 2013-02-22 2013-06-19 中国人民解放军91655部队 一种具有一体化安全管控功能的信息安全管理方法
CN103514398A (zh) * 2013-10-18 2014-01-15 中国科学院信息工程研究所 一种实时在线日志检测方法及系统
CN103944761A (zh) * 2014-04-18 2014-07-23 深圳芯智汇科技有限公司 Android日志信息过滤方法及系统
CN104144071A (zh) * 2013-05-10 2014-11-12 北京新媒传信科技有限公司 系统日志的处理方法和系统日志的处理平台
CN104424094A (zh) * 2013-08-26 2015-03-18 腾讯科技(深圳)有限公司 一种异常信息获取方法、装置及智能终端设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102065416A (zh) * 2009-11-18 2011-05-18 成都市华为赛门铁克科技有限公司 日志格式化方法、装置及系统
CN103166794A (zh) * 2013-02-22 2013-06-19 中国人民解放军91655部队 一种具有一体化安全管控功能的信息安全管理方法
CN104144071A (zh) * 2013-05-10 2014-11-12 北京新媒传信科技有限公司 系统日志的处理方法和系统日志的处理平台
CN104424094A (zh) * 2013-08-26 2015-03-18 腾讯科技(深圳)有限公司 一种异常信息获取方法、装置及智能终端设备
CN103514398A (zh) * 2013-10-18 2014-01-15 中国科学院信息工程研究所 一种实时在线日志检测方法及系统
CN103944761A (zh) * 2014-04-18 2014-07-23 深圳芯智汇科技有限公司 Android日志信息过滤方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"移动IP承载网自动化巡检系统的设计与实现";罗伯恩;《中国优秀硕士学位论文全文数据库信息科技辑》;20130301;全文 *

Also Published As

Publication number Publication date
CN106209405A (zh) 2016-12-07

Similar Documents

Publication Publication Date Title
CN106209405B (zh) 故障诊断方法及装置
CN107171819B (zh) 一种网络故障诊断方法及装置
CN108415789B (zh) 面向大规模混合异构存储系统的节点故障预测系统及方法
CN108964995A (zh) 基于时间轴事件的日志关联分析方法
CN101997709B (zh) 一种根告警数据分析的方法及其系统
CN107124289B (zh) 网络日志时间对齐方法、装置及主机
CN111885012B (zh) 基于多种网络设备信息采集的网络态势感知方法及系统
CN112559237B (zh) 运维系统排障方法、装置、服务器和存储介质
CN108809734A (zh) 网络告警根源分析方法、系统、存储介质及计算机设备
CN112492567B (zh) 一种应急指挥通信中的故障分析和解决方法及装置
CN107635003A (zh) 系统日志的管理方法、装置及系统
US20200021511A1 (en) Performance analysis for transport networks using frequent log sequence discovery
CN113553210A (zh) 告警数据的处理方法、装置、设备及存储介质
CN108809729A (zh) 一种分布式系统中ctdb服务的故障处理方法及装置
CN114514141A (zh) 充电站监测方法和设备
CN101252477B (zh) 一种网络故障根源的确定方法及分析装置
WO2022083576A1 (zh) 一种网络功能虚拟化设备运行数据的分析方法及装置
CN108965049A (zh) 提供集群异常解决方案的方法、设备、系统及存储介质
CN104978260A (zh) 软件测试方法及装置
US11348023B2 (en) Identifying locations and causes of network faults
CN103297281A (zh) 一种电力专用业务通道运行状态监测的方法和系统
KR101288535B1 (ko) 통신 시스템 모니터링 방법 및 이를 위한 장치
CN109687592A (zh) 变电站信息显示控制方法、装置及电子设备
CN113037550B (zh) 一种服务故障监控方法、系统及计算机可读存储介质
KR102150622B1 (ko) 지능형 장비 이상 증상 사전 탐지 시스템 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant