CN109995547B - 一种故障诊断方法及设备 - Google Patents

一种故障诊断方法及设备 Download PDF

Info

Publication number
CN109995547B
CN109995547B CN201711476917.9A CN201711476917A CN109995547B CN 109995547 B CN109995547 B CN 109995547B CN 201711476917 A CN201711476917 A CN 201711476917A CN 109995547 B CN109995547 B CN 109995547B
Authority
CN
China
Prior art keywords
service
service data
information
support system
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711476917.9A
Other languages
English (en)
Other versions
CN109995547A (zh
Inventor
郑蕾
蒋宝成
豆晓瑜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Gansu Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Gansu Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Gansu Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201711476917.9A priority Critical patent/CN109995547B/zh
Publication of CN109995547A publication Critical patent/CN109995547A/zh
Application granted granted Critical
Publication of CN109995547B publication Critical patent/CN109995547B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种故障诊断方法及设备,用以解决现有技术中存在对故障告警不准确的问题。该方法为:获得业务支撑系统的性能参数,并确定业务支撑系统的故障率,然后获得业务支撑系统处理的第一业务数据的信息,基于第一业务数据的信息和故障率,采用数据挖掘算法获得第一业务数据的指标值,在判定指标值没有位于为第一业务预设的指标阈值区间内时,输出故障告警信息。本发明实施例通过将业务支撑系统的各个组件的数据进行关联分析,相较于现有技术中根据各组件的单项指标判断故障判断的准确性更高,同时,将业务支撑系统在无故障时的指标阈值区间作为故障诊断的参考依据,相较于现有技术中根据人为经验预设的指标阈值更准确。

Description

一种故障诊断方法及设备
技术领域
本发明涉及业务支撑技术领域,尤其涉及一种故障诊断方法及设备。
背景技术
业务支撑系统是运营商对用户执行相应业务操作的综合业务运营和管理平台,业务支撑系统是包括若干子系统的综合性系统,主要用于业务处理、运营分析以及决策数据的管理等方面。业务支撑系统包括交换机、服务器等组件,系统的架构较为复杂,承载的业务系统多样,一旦产生故障,可能会因为数据丢失、业务无法办理等造成一定的损失。
现有技术中,为了诊断业务支撑系统的故障,会根据维护人员的经验为业务支撑系统中的每个组件设置告警指标阈值,当任意一个组件的指标达到为该组件设置的告警指标阈值时,则触发该组件的告警装置,通过短信或者监控页面向业务人员发送告警信息。告警指标阈值一般是根据经验设置的,没有标准的参考依据,在告警指标阈值设置不合理时,可能某组件没有故障,但指标达到了告警指标阈值,系统会进行误告警,或者,某组件已经出现故障,但指标没有达到告警指标阈值,系统不会告警。可见,目前对于业务支撑系统的故障告警不够准确。
发明内容
本发明实施例提供一种故障诊断方法及设备,用以解决现有技术中存在对故障告警不准确的问题。
第一方面,提供一种故障诊断方法,包括:
获得业务支撑系统的性能参数,其中,所述业务支撑系统用于为用户办理业务提供服务;
基于所述性能参数,确定所述业务支撑系统的故障率;
获得所述业务支撑系统处理的第一业务数据的信息,所述第一业务数据属于第一业务,所述第一业务数据的信息包括所述第一业务数据在所述业务支撑系统中的传输路径、所述第一业务数据从上一个进程进入下一个进程之间的间隔时长、以及所述第一业务数据在所述传输路径中参与的进程的标识符;
基于所述第一业务数据的信息和所述故障率,采用数据挖掘算法获得所述第一业务数据的指标值,其中,所述第一业务数据的指标值用于表征所述业务支撑系统处理所述第一业务数据的服务质量;
确定所述指标值是否位于为所述第一业务预设的指标阈值区间内,其中,为所述第一业务预设的指标阈值区间是根据属于所述第一业务的业务数据在所述业务支撑系统无故障时的指标值确定的;
若所述指标值没有位于为所述第一业务预设的指标阈值区间内,则输出故障告警信息,所述故障告警信息用于指示所述业务支撑系统出现故障。
可选的,获得所述业务支撑系统处理的第一业务数据的信息,包括:
获得所述业务支撑系统处理的任意一个业务数据的日志信息,其中,所述日志信息包括所述业务支撑系统在运行时的所有数据;
提取所述任意一个业务数据的日志信息中所述任意一个业务数据的信息,所述任一一个业务数据的信息包括所述任意一个业务数据在所述业务支撑系统中的传输路径、所述所述任意一个业务数据从上一个进程进入下一个进程之间的间隔时长、以及所述所述任意一个业务数据在所述传输路径中参与的进程的标识符;
将提取的所述任意一个业务数据的信息作为所述第一业务数据的信息。
可选的,基于所述第一业务数据的信息和所述故障率,采用数据挖掘算法获得所述第一业务数据的指标值,包括:
根据所述第一业务数据的信息确定所述传输路径所指示的进程的数量、所述第一业务数据从上一个进程进入下一个进程之间的间隔时长、以及所述第一业务数据在所述传输路径中参与的进程的标识符;
根据所述传输路径所指示的进程的数量生成第一向量、根据所述第一业务数据从上一个进程进入下一个进程之间的间隔时长生成第二向量、以及根据所述第一业务数据在所述传输路径中参与的进程的标识符生成第三向量;
将所述第一向量、所述第二向量、所述第三向量以及所述故障率作为所述数据挖掘算法的输入参量;
通过所述数据挖掘算法计算并输出所述第一业务数据的指标值。
可选的,在确定所述指标值是否位于为所述第一业务预设的指标阈值区间内之前,还包括:
在所述业务支撑系统无故障时,获得所述业务支撑系统处理的至少两个业务数据的信息,所述至少两个业务数据属于所述第一业务,其中,所述第一业务为所述业务支撑系统中若干业务中的任意一种业务;
分别基于所述至少两个业务数据的信息与所述故障率,确定所述至少两个业务数据的指标值;
根据所述至少两个业务数据的指标值确定所述第一业务的指标阈值区间。
可选的,若所述指标值没有位于所述预设的指标阈值区间内,则输出故障告警信息,包括:
若所述指标值没有位于所述预设的指标阈值区间内,则根据所述第一业务数据的信息以及在所述业务支撑系统无故障时获得的所述第一业务的至少一个业务数据的信息,确定发生异常的位置信息和故障类型;
根据所述位置信息和故障类型生成所述故障告警信息,并输出所述故障告警信息。
第二方面,提供一种故障诊断设备,包括:
获取单元,用于获得业务支撑系统的性能参数,其中,所述业务支撑系统用于为用户办理业务提供服务;
计算单元,用于基于所述性能参数,确定所述业务支撑系统的故障率;
所述获取单元,还用于获得所述业务支撑系统处理的第一业务数据的信息,所述第一业务数据属于第一业务,所述第一业务数据的信息包括所述第一业务数据在所述业务支撑系统中的传输路径、所述第一业务数据从上一个进程进入下一个进程之间的间隔时长、以及所述第一业务数据在所述传输路径中参与的进程的标识符;
所述计算单元,还用于基于所述第一业务数据的信息和所述故障率,采用数据挖掘算法获得所述第一业务数据的指标值,其中,所述第一业务数据的指标值用于表征所述业务支撑系统处理所述第一业务数据的服务质量;
判断单元,用于确定所述指标值是否位于为所述第一业务预设的指标阈值区间内,其中,为所述第一业务预设的指标阈值区间是根据属于所述第一业务的业务数据在所述业务支撑系统无故障时的指标值确定的;
告警单元,用于若所述指标值没有位于为所述第一业务预设的指标阈值区间内,则输出故障告警信息,所述故障告警信息用于指示所述业务支撑系统出现故障。
可选的,获得所述业务支撑系统处理的第一业务数据的信息,所述获取单元具体用于获得所述业务支撑系统处理的任意一个业务数据的日志信息,其中,所述日志信息包括所述业务支撑系统在运行时的所有数据;
提取所述任意一个业务数据的日志信息中所述任意一个业务数据的信息,所述任一一个业务数据的信息包括所述任意一个业务数据在所述业务支撑系统中的传输路径、所述所述任意一个业务数据从上一个进程进入下一个进程之间的间隔时长、以及所述所述任意一个业务数据在所述传输路径中参与的进程的标识符;
将提取的所述任意一个业务数据的信息作为所述第一业务数据的信息。
可选的,基于所述第一业务数据的信息和所述故障率,采用数据挖掘算法获得所述第一业务数据的指标值,所述计算单元具体用于根据所述第一业务数据的信息确定所述传输路径所指示的进程的数量、所述第一业务数据从上一个进程进入下一个进程之间的间隔时长、以及所述第一业务数据在所述传输路径中参与的进程的标识符;
根据所述传输路径所指示的进程的数量生成第一向量、根据所述第一业务数据从上一个进程进入下一个进程之间的间隔时长生成第二向量、以及根据所述第一业务数据在所述传输路径中参与的进程的标识符生成第三向量;
将所述第一向量、所述第二向量、所述第三向量以及所述故障率作为所述数据挖掘算法的输入参量;
通过所述数据挖掘算法计算并输出所述第一业务数据的指标值。
可选的,在确定所述指标值是否位于为所述第一业务预设的指标阈值区间内之前,所述获取单元还用于在所述业务支撑系统无故障时,获得所述业务支撑系统处理的至少两个业务数据的信息,所述至少两个业务数据属于所述第一业务,其中,所述第一业务为所述业务支撑系统中若干业务中的任意一种业务;
所述计算单元还用于分别基于所述至少两个业务数据的信息与所述故障率,确定所述至少两个业务数据的指标值;
所述判断单元还用于根据所述至少两个业务数据的指标值确定所述第一业务的指标阈值区间。
可选的,若所述指标值没有位于所述预设的指标阈值区间内,则所述告警单元具体用于根据所述第一业务数据的信息以及在所述业务支撑系统无故障时获得的所述第一业务的至少一个业务数据的信息,确定发生异常的位置信息和故障类型;
根据所述位置信息和故障类型生成所述故障告警信息,并输出所述故障告警信息。
本发明实施例有益效果如下:
本发明实施例中,通过业务数据的信息进行故障诊断,可以将业务支撑系统的各个组件的数据进行关联分析,相较于现有技术中根据各组件的单项指标判断故障,本发明实施例根据各组件的综合指标来判断故障的方式,判断的准确性更高。另一方面,将业务支撑系统在无故障时的业务数据的信息确定出的指标阈值区间作为业务支撑系统故障诊断的参考依据,相较于现有技术中根据人为经验预设的指标阈值更准确。因此综合来看,本发明实施例提供的技术方案能够有效提高故障诊断的准确性。
附图说明
图1为本发明实施例中一种故障诊断方法的流程图;
图2为本发明实施例中第一业务数据的指标值的计算示意图;
图3为本发明实施例中一种故障诊断设备的结构示意图。
具体实施方式
下面结合附图对本发明优选的实施方式进行详细说明。
具体的,参阅图1所示,本发明实施例提供一种业务支撑系统故障诊断方法,该方法的流程描述如下。
步骤100、故障诊断设备获得业务支撑系统的性能参数,其中,业务支撑系统用于为用户办理业务提供服务。
本发明实施例中,故障诊断设备可以是业务支撑系统中的组件,也可以是独立于业务支撑系统的另外的设备,在此不作限定。
业务支撑系统包括交换机、服务器等组件,故障诊断设备通过获得业务支撑系统中各组件的性能参数来确定业务支撑系统的工作性能,性能参数例如包括服务器中的中央处理器(Central Processing Unit,CPU)利用率、服务器中的内存利用率、网络带宽、以及交换机和服务器中的I/O(Input/Output port)端口数量中的至少一项。
步骤101、基于业务支撑系统的性能参数,故障诊断设备确定业务支撑系统的故障率。
本发明实施例中,基于业务支撑系统的性能参数,故障诊断设备可以采用数据挖掘算法确定故障率。其中,故障诊断设备可以将业务支撑系统的各个性能参数作为数据挖掘算法的输入参数,通过数据挖掘算法获得一个总的故障率,或者,也可以分别将每个性能参数作为数据挖掘算法的输入参数,获得每个性能参数对应的故障率,在此不作限定。
例如,业务支撑系统的性能参数中,CPU利用率为70%,内存利用率为50%,网络带宽为10MHz,I/O端口的数量为6万个,那么,故障诊断设备可以将所有的性能参数一并作为数据挖掘算法的输入参数,通过数据挖掘算法计算并输出业务支撑系统的总的故障率,总的故障率例如为40%,总的故障率表征了业务支撑系统的总体工作性能,若总的故障率较高,则说明业务支撑系统总体工作性能较差;或者,故障诊断设备也可以将CPU利用率作为数据挖掘算法的输入参数,获得CPU的故障率为25%,将内存利用率作为数据挖掘算法的输入参数,获得内存的故障率为5%,将网络带宽作为数据挖掘算法的输入参数,获得网络的故障率为30%,将I/O端口的数量作为数据挖掘算法的输入参数,获得I/O端口的故障率为10%,每个性能参数对应的故障率表征了该性能参数对应的组件的工作性能,故障率高的性能参数对应的组件工作性能也越差,也就越容易发生故障。
步骤102、故障诊断设备获得业务支撑系统处理的第一业务数据的信息,其中,第一业务数据属于第一业务。
本发明实施例中,故障诊断设备获得业务支撑系统处理的任意一个业务数据的日志信息,该任意一个业务数据就可以作为第一业务数据,那么该任意一个业务数据的日志信息也就是第一业务数据的日志信息。其中,第一业务数据的日志信息包括业务支撑系统在处理第一业务数据时的所有信息,例如包括业务支撑系统在运行第一业务数据时所有进程活动事件日志,以及操作消息日志等。故障诊断设备从第一业务数据的日志信息中可以提取第一业务数据的信息,第一业务数据的信息包括第一业务数据在业务支撑系统中的传输路径、第一业务数据从上一个进程进入下一个进程之间的间隔时长、以及第一业务数据在传输路径中参与的进程的标识符。
例如,故障诊断设备获得业务支撑系统处理的客户话单数据的日志信息,从客户话单数据的日志信息中提取客户话单数据在业务支撑系统中的传输路径、客户话单数据从上一个进程进入下一个进程之间的间隔时长、以及客户话单数据在传输路径中参与的进程的标识符。
步骤103、故障诊断设备基于第一业务数据的信息和故障率,采用数据挖掘算法获得第一业务数据的指标值,其中,第一业务数据的指标值用于表征业务支撑系统处理第一业务数据的服务质量。
其中,所述故障率可以是业务支撑系统总的故障率,也可以是业务支撑系统每个性能参数对应的故障率。
例如,参阅图2所示,本发明实施例中,为了将第一业务数据的信息作为数据挖掘算法的输入参数,需要将第一业务数据的信息量化为数值。其中,故障诊断设备将第一业务数据的信息量化为数值的一种方式为:故障诊断设备确定第一业务数据的信息中传输路径所指示的进程的数量、第一业务数据的信息从上一个进程进入下一个进程之间的间隔时长、以及第一业务数据的信息在传输路径中参与的进程的标识符,其中,第一业务数据的信息中传输路径所指示的进程的数量是对第一业务数据在业务支撑系统中的传输路径量化后的结果,第一业务数据的信息从上一个进程进入下一个进程之间的间隔时长本来就是数值,因此不需要量化,第一业务数据的信息在传输路径中参与的进程的标识符本身就是用于唯一标识进程的一个数值,因此也不需要量化。
分别将第一业务数据的信息量化为数值之后,故障诊断设备根据传输路径所指示的进程的数量生成第一向量、根据第一业务数据从上一个进程进入下一个进程之间的间隔时长生成第二向量、以及根据第一业务数据在传输路径中参与的进程的标识符生成第三向量。
故障诊断设备将生成的第一向量、第二向量、第三向量以及业务支撑系统的故障率作为数据挖掘算法的输入参数,然后通过数据挖掘算法输出计算结果,将该计算结果作为第一业务数据的指标值。其中,由于第一业务数据的指标值由业务支撑系统的故障率以及第一业务数据的信息计算而来,因此第一业务数据的指标值可以用于表征业务支撑系统处理第一业务数据的服务质量。
例如,以业务支撑系统处理客户话单数据的信息为例,假设故障诊断设备确定客户话单数据的信息中传输路径所指示的进程的数量为5,客户话单数据的信息从第1个进程到第5个进程,每两个相邻进程之间的间隔时长分别为20秒、10秒、60秒、5秒,客户话单数据的信息在传输路径中参与的进程的标识符分别为1635、1658、1680、1733、1795。那么,故障诊断设备根据客户话单数据的信息中传输路径所指示的进程的数量5生成第一向量,例如为S1=(5),根据第一业务数据从上一个进程进入下一个进程之间的间隔时长生成第二向量,例如为S2=(20,10,60,5),根据第一业务数据在传输路径中参与的进程的标识符生成第三向量,例如为S3=(1635,1658,1680,1733,1795)。
步骤104、故障诊断设备确定第一业务数据的指标值是否位于为第一业务预设的指标阈值区间内,其中,为第一业务预设的指标阈值区间是根据属于第一业务的业务数据在业务支撑系统无故障时的指标值确定的。
本发明实施例中,故障诊断设备可以先为第一业务设置指标阈值区间,例如根据业务支撑系统无故障时的第一业务数据的信息来为第一业务设置指标阈值区间,获得的指标阈值区间可以作为故障诊断的参考依据。其中,业务支撑系统中承载了多种业务,第一业务只是多种业务中的任意一种,针对业务支撑系统中的每种业务,都可以分别根据每种业务数据的信息来确定相应的指标阈值区间,即,在业务支撑系统中,一种业务对应一个指标阈值区间,在故障诊断时,根据业务数据所属的业务确定对应的指标阈值区间作为参考依据。
在业务支撑系统无故障时,可以采用数据挖掘算法确定为第一业务预设的指标阈值区间,故障诊断设备获得业务支撑系统处理的至少两个属于第一业务的业务数据的信息,其中,故障诊断设备可以获得属于第一业务的所有业务数据的信息,使为第一业务预设的指标阈值区间准确率更高,或者,也可以获得属于第一业务的部分业务数据的信息,减少故障诊断设备的工作量,提高诊断效率。
进一步地,在现有技术中,业务支撑系统获得的至少两个属于第一业务的业务数据的信息是在不同时间处理第一业务时的业务数据的信息。但如果以后在同一时间处理第一业务时可以获取多个业务数据的信息,则同样适用本发明的方案,在此不作限定。
在获得了属于第一业务的业务数据的信息之后,分别基于至少两个业务数据的信息与业务支撑系统总的故障率,或者,基于至少两个业务数据的信息与业务支撑系统的每个性能参数对应的故障率,采用数据挖掘算法确定至少两个业务数据的指标值,确定至少两个业务数据的指标值中的最小指标值和最大指标值,确定为第一业务预设的指标阈值区间为[最小指标值,最大指标值]。
例如,在业务支撑系统无故障时,故障诊断设备获得业务支撑系统处理的5个客户话单数据的信息,然后分别根据这5个客户话单数据的信息结合业务支撑系统的故障率,采用数据挖掘算法获得这5个客户话单数据的指标值,例如为3、5、4、7、8,故障诊断设备确定其中的最小指标值为3,最大指标值为8,则第一业务的指标阈值区间为[3,8]。其中,根据客户话单数据的信息和业务支撑系统的故障率,采用数据挖掘算法获得这客户话单数据的指标值的方式,可参考前文的相关介绍,不多赘述。
在获得业务支撑系统无故障时的第一业务的指标阈值区间后,故障诊断设备可以保存该业务支撑系统无故障时的第一业务的指标阈值区间,作为诊断业务支撑系统是否存在故障的参考区间。
本发明实施例中,故障诊断设备在诊断业务支撑系统是否存在故障时,可以通过S103中获得的第一业务数据的指标值和为第一业务预设的指标阈值区间进行判断。例如,故障诊断设备可以判断由数据挖掘算法获得的第一业务数据的指标值是否位于为第一业务预设的指标阈值区间内,若第一业务数据的指标值位于第一业务的指标阈值区间内,则确定当前业务支撑系统无故障,可以正常处理业务,结束流程;而若第一业务数据的指标值没有位于第一业务的指标阈值区间内,则确定当前业务支撑系统存在故障,此时可执行步骤104。
步骤105、若第一业务数据的指标值没有位于为第一业务预设的指标阈值区间内,则故障诊断设备输出故障告警信息,其中,故障告警信息用于指示业务支撑系统出现故障。
本发明实施例中,若第一业务数据的指标值没有位于为第一业务预设的指标阈值区间内,则故障诊断设备确定业务支撑系统存在故障,并输出故障告警信息。
或者,在确定系统存在故障后,故障诊断设备可以进一步确定业务支撑系统出现故障的具体位置及故障的类型,并输出能够指示故障的位置信息和故障类型的故障告警信息,更加便于维修人员更有针对性地对业务支撑系统进行维护。如果要确定业务支撑系统出现故障的具体位置及故障的类型,则故障诊断设备可以比较第一业务数据的信息和业务支撑系统在无故障时获得的第一业务的至少一个业务数据的信息,确定两者之间的偏差,确定两者之间的偏差大于预设的偏差阈值的数据所对应的进程或组件,根据这些进程或组件就可以确定业务支撑系统发生异常的位置信息和故障类型。
例如,若客户话单数据的指标值没有位于第一业务的指标阈值区间[3,8]内,则故障诊断设备确定业务支撑系统存在故障。故障诊断设备可以获取业务支撑系统在无故障时处理的任意一个客户话单数据的信息,同时获取在不确定业务支撑系统是否存在故障时处理客户话单的业务数据的信息,比较两者之间的偏差,例如相邻两个进程之间的间隔时长大于时长阈值,则进一步确定运行这两个进程的组件,假设运行这两个进程的组件为CPU,则可以确定CPU出现了故障。
故障诊断设备可以根据故障的位置信息和故障类型生成故障告警信息,并输出故障告警信息,以提示业务支撑系统的维护人员根据故障的位置和类型进行维修,从而便于进行故障排查,提高了定位故障的准确性以及排除故障的效率。
基于上述实施例,参阅图3所示,本发明实施例提供一种故障诊断设备,该故障诊断设备包括获取单元30、计算单元31、判断单元32、告警单元33,其中,
一种故障诊断设备,其特征在于,包括:
获取单元30,用于获得业务支撑系统的性能参数,其中,所述业务支撑系统用于为用户办理业务提供服务;
计算单元31,用于基于所述性能参数,确定所述业务支撑系统的故障率;
所述获取单元30,还用于获得所述业务支撑系统处理的第一业务数据的信息,所述第一业务数据属于第一业务,所述第一业务数据的信息包括所述第一业务数据在所述业务支撑系统中的传输路径、所述第一业务数据从上一个进程进入下一个进程之间的间隔时长、以及所述第一业务数据在所述传输路径中参与的进程的标识符;
所述计算单元31,还用于基于所述第一业务数据的信息和所述故障率,采用数据挖掘算法获得所述第一业务数据的指标值,其中,所述第一业务数据的指标值用于表征所述业务支撑系统处理所述第一业务数据的服务质量;
判断单元32,用于确定所述指标值是否位于为所述第一业务预设的指标阈值区间内,其中,为所述第一业务预设的指标阈值区间是根据属于所述第一业务的业务数据在所述业务支撑系统无故障时的指标值确定的;
告警单元33,用于若所述指标值没有位于为所述第一业务预设的指标阈值区间内,则输出故障告警信息,所述故障告警信息用于指示所述业务支撑系统出现故障。
可选的,获得所述业务支撑系统处理的第一业务数据的信息,所述获取单元30具体用于获得所述业务支撑系统处理的任意一个业务数据的日志信息,其中,所述日志信息包括所述业务支撑系统在运行时的所有数据;
提取所述任意一个业务数据的日志信息中所述任意一个业务数据的信息,所述任一一个业务数据的信息包括所述任意一个业务数据在所述业务支撑系统中的传输路径、所述所述任意一个业务数据从上一个进程进入下一个进程之间的间隔时长、以及所述所述任意一个业务数据在所述传输路径中参与的进程的标识符;
将提取的所述任意一个业务数据的信息作为所述第一业务数据的信息。
可选的,基于所述第一业务数据的信息和所述故障率,采用数据挖掘算法获得所述第一业务数据的指标值,所述计算单元31具体用于根据所述第一业务数据的信息确定所述传输路径所指示的进程的数量、所述第一业务数据从上一个进程进入下一个进程之间的间隔时长、以及所述第一业务数据在所述传输路径中参与的进程的标识符;
根据所述传输路径所指示的进程的数量生成第一向量、根据所述第一业务数据从上一个进程进入下一个进程之间的间隔时长生成第二向量、以及根据所述第一业务数据在所述传输路径中参与的进程的标识符生成第三向量;
将所述第一向量、所述第二向量、所述第三向量以及所述故障率作为所述数据挖掘算法的输入参量;
通过所述数据挖掘算法计算并输出所述第一业务数据的指标值。
可选的,在确定所述指标值是否位于为所述第一业务预设的指标阈值区间内之前,所述获取单元30还用于在所述业务支撑系统无故障时,获得所述业务支撑系统处理的至少两个业务数据的信息,所述至少两个业务数据属于所述第一业务,其中,所述第一业务为所述业务支撑系统中若干业务中的任意一种业务;
所述计算单元31还用于分别基于所述至少两个业务数据的信息与所述故障率,确定所述至少两个业务数据的指标值;
所述判断单元32还用于根据所述至少两个业务数据的指标值确定所述第一业务的指标阈值区间。
可选的,若所述指标值没有位于所述预设的指标阈值区间内,则所述告警单元33具体用于根据所述第一业务数据的信息以及在所述业务支撑系统无故障时获得的所述第一业务的至少一个业务数据的信息,确定发生异常的位置信息和故障类型;
根据所述位置信息和故障类型生成所述故障告警信息,并输出所述故障告警信息。
本发明实施例中,通过业务数据的信息进行故障诊断,可以将业务支撑系统的各个组件的数据进行关联分析,相较于现有技术中根据各组件的单项指标判断故障,本发明实施例根据各组件的综合指标来判断故障的方式,判断的准确性更高。另一方面,将业务支撑系统在无故障时的业务数据的信息确定出的指标阈值区间作为业务支撑系统故障诊断的参考依据,相较于现有技术中根据人为经验预设的指标阈值更准确。因此综合来看,本发明实施例提供的技术方案能够有效提高故障诊断的准确性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (6)

1.一种故障诊断方法,其特征在于,包括:
获得业务支撑系统的性能参数,其中,所述业务支撑系统用于为用户办理业务提供服务;
基于所述性能参数,确定所述业务支撑系统的故障率;
获得所述业务支撑系统处理的第一业务数据的信息,所述第一业务数据属于第一业务,所述第一业务数据的信息包括所述第一业务数据在所述业务支撑系统中的传输路径、所述第一业务数据从上一个进程进入下一个进程之间的间隔时长、以及所述第一业务数据在所述传输路径中参与的进程的标识符;
基于所述第一业务数据的信息和所述故障率,采用数据挖掘算法获得所述第一业务数据的指标值,其中,所述第一业务数据的指标值用于表征所述业务支撑系统处理所述第一业务数据的服务质量;
确定所述指标值是否位于为所述第一业务预设的指标阈值区间内,其中,为所述第一业务预设的指标阈值区间是根据属于所述第一业务的业务数据在所述业务支撑系统无故障时的指标值确定的;
若所述指标值没有位于为所述第一业务预设的指标阈值区间内,则根据所述第一业务数据的信息以及在所述业务支撑系统无故障时获得的所述第一业务的至少一个业务数据的信息,确定发生异常的位置信息和故障类型;
根据所述位置信息和故障类型生成故障告警信息,并输出所述故障告警信息;
在确定所述指标值是否位于为所述第一业务预设的指标阈值区间内之前,还包括:
在所述业务支撑系统无故障时,获得所述业务支撑系统处理的至少两个业务数据的信息,所述至少两个业务数据属于所述第一业务,其中,所述第一业务为所述业务支撑系统中若干业务中的任意一种业务;
分别基于所述至少两个业务数据的信息与所述故障率,确定所述至少两个业务数据的指标值;
根据所述至少两个业务数据的指标值确定所述第一业务的指标阈值区间。
2.如权利要求1所述的方法,其特征在于,获得所述业务支撑系统处理的第一业务数据的信息,包括:
获得所述业务支撑系统处理的任意一个业务数据的日志信息,其中,所述日志信息包括所述业务支撑系统在运行时的所有数据;
提取所述任意一个业务数据的日志信息中所述任意一个业务数据的信息,所述任意一个业务数据的信息包括所述任意一个业务数据在所述业务支撑系统中的传输路径、所述所述任意一个业务数据从上一个进程进入下一个进程之间的间隔时长、以及所述任意一个业务数据在所述传输路径中参与的进程的标识符;
将提取的所述任意一个业务数据的信息作为所述第一业务数据的信息。
3.如权利要求1或2所述的方法,其特征在于,基于所述第一业务数据的信息和所述故障率,采用数据挖掘算法获得所述第一业务数据的指标值,包括:
根据所述第一业务数据的信息确定所述传输路径所指示的进程的数量、所述第一业务数据从上一个进程进入下一个进程之间的间隔时长、以及所述第一业务数据在所述传输路径中参与的进程的标识符;
根据所述传输路径所指示的进程的数量生成第一向量、根据所述第一业务数据从上一个进程进入下一个进程之间的间隔时长生成第二向量、以及根据所述第一业务数据在所述传输路径中参与的进程的标识符生成第三向量;
将所述第一向量、所述第二向量、所述第三向量以及所述故障率作为所述数据挖掘算法的输入参量;
通过所述数据挖掘算法计算并输出所述第一业务数据的指标值。
4.一种故障诊断设备,其特征在于,包括:
获取单元,用于获得业务支撑系统的性能参数,其中,所述业务支撑系统用于为用户办理业务提供服务;
计算单元,用于基于所述性能参数,确定所述业务支撑系统的故障率;
所述获取单元,还用于获得所述业务支撑系统处理的第一业务数据的信息,所述第一业务数据属于第一业务,所述第一业务数据的信息包括所述第一业务数据在所述业务支撑系统中的传输路径、所述第一业务数据从上一个进程进入下一个进程之间的间隔时长、以及所述第一业务数据在所述传输路径中参与的进程的标识符;
所述计算单元,还用于基于所述第一业务数据的信息和所述故障率,采用数据挖掘算法获得所述第一业务数据的指标值,其中,所述第一业务数据的指标值用于表征所述业务支撑系统处理所述第一业务数据的服务质量;
判断单元,用于确定所述指标值是否位于为所述第一业务预设的指标阈值区间内,其中,为所述第一业务预设的指标阈值区间是根据属于所述第一业务的业务数据在所述业务支撑系统无故障时的指标值确定的;
告警单元,用于若所述指标值没有位于为所述第一业务预设的指标阈值区间内,则所述告警单元具体用于根据所述第一业务数据的信息以及在所述业务支撑系统无故障时获得的所述第一业务的至少一个业务数据的信息,确定发生异常的位置信息和故障类型;根据所述位置信息和故障类型生成故障告警信息,并输出所述故障告警信息;
在确定所述指标值是否位于为所述第一业务预设的指标阈值区间内之前,所述获取单元还用于在所述业务支撑系统无故障时,获得所述业务支撑系统处理的至少两个业务数据的信息,所述至少两个业务数据属于所述第一业务,其中,所述第一业务为所述业务支撑系统中若干业务中的任意一种业务;
所述计算单元还用于分别基于所述至少两个业务数据的信息与所述故障率,确定所述至少两个业务数据的指标值;
所述判断单元还用于根据所述至少两个业务数据的指标值确定所述第一业务的指标阈值区间。
5.如权利要求4所述的设备,其特征在于,获得所述业务支撑系统处理的第一业务数据的信息,所述获取单元具体用于获得所述业务支撑系统处理的任意一个业务数据的日志信息,其中,所述日志信息包括所述业务支撑系统在运行时的所有数据;
提取所述任意一个业务数据的日志信息中所述任意一个业务数据的信息,所述任意一个业务数据的信息包括所述任意一个业务数据在所述业务支撑系统中的传输路径、所述所述任意一个业务数据从上一个进程进入下一个进程之间的间隔时长、以及所述任意一个业务数据在所述传输路径中参与的进程的标识符;
将提取的所述任意一个业务数据的信息作为所述第一业务数据的信息。
6.如权利要求4或5所述的设备,其特征在于,基于所述第一业务数据的信息和所述故障率,采用数据挖掘算法获得所述第一业务数据的指标值,所述计算单元具体用于根据所述第一业务数据的信息确定所述传输路径所指示的进程的数量、所述第一业务数据从上一个进程进入下一个进程之间的间隔时长、以及所述第一业务数据在所述传输路径中参与的进程的标识符;
根据所述传输路径所指示的进程的数量生成第一向量、根据所述第一业务数据从上一个进程进入下一个进程之间的间隔时长生成第二向量、以及根据所述第一业务数据在所述传输路径中参与的进程的标识符生成第三向量;
将所述第一向量、所述第二向量、所述第三向量以及所述故障率作为所述数据挖掘算法的输入参量;
通过所述数据挖掘算法计算并输出所述第一业务数据的指标值。
CN201711476917.9A 2017-12-29 2017-12-29 一种故障诊断方法及设备 Active CN109995547B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711476917.9A CN109995547B (zh) 2017-12-29 2017-12-29 一种故障诊断方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711476917.9A CN109995547B (zh) 2017-12-29 2017-12-29 一种故障诊断方法及设备

Publications (2)

Publication Number Publication Date
CN109995547A CN109995547A (zh) 2019-07-09
CN109995547B true CN109995547B (zh) 2022-04-29

Family

ID=67108753

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711476917.9A Active CN109995547B (zh) 2017-12-29 2017-12-29 一种故障诊断方法及设备

Country Status (1)

Country Link
CN (1) CN109995547B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110740061B (zh) * 2019-10-18 2020-09-29 北京三快在线科技有限公司 故障预警方法、装置及计算机存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103412805A (zh) * 2013-07-31 2013-11-27 交通银行股份有限公司 一种it故障源诊断方法及系统
CN105406991A (zh) * 2015-10-26 2016-03-16 上海华讯网络系统有限公司 基于网络监控指标由历史数据生成业务阈值的方法及系统
CN105721187A (zh) * 2014-12-03 2016-06-29 中国移动通信集团江苏有限公司 一种业务故障诊断方法及装置
CN107515796A (zh) * 2017-07-31 2017-12-26 北京奇安信科技有限公司 一种设备异常监控处理方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8756459B2 (en) * 2011-10-31 2014-06-17 International Business Machines Corporation Fault detection based on diagnostic history

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103412805A (zh) * 2013-07-31 2013-11-27 交通银行股份有限公司 一种it故障源诊断方法及系统
CN105721187A (zh) * 2014-12-03 2016-06-29 中国移动通信集团江苏有限公司 一种业务故障诊断方法及装置
CN105406991A (zh) * 2015-10-26 2016-03-16 上海华讯网络系统有限公司 基于网络监控指标由历史数据生成业务阈值的方法及系统
CN107515796A (zh) * 2017-07-31 2017-12-26 北京奇安信科技有限公司 一种设备异常监控处理方法及装置

Also Published As

Publication number Publication date
CN109995547A (zh) 2019-07-09

Similar Documents

Publication Publication Date Title
CN106294120B (zh) 测试代码的方法、设备和计算机程序产品
CN109960488B (zh) App全周期监控方法、装置、计算机设备及存储介质
CN110300008B (zh) 一种确定网络设备的状态的方法及装置
CN110633194B (zh) 一种硬件资源在特定环境下的性能评估方法
CN110275992B (zh) 应急处理方法、装置、服务器及计算机可读存储介质
CN111611146A (zh) 一种微服务故障预测方法和装置
CN111679968A (zh) 接口调用异常的检测方法、装置、计算机设备及存储介质
CN114996090A (zh) 一种服务器异常检测方法、装置、电子设备及存储介质
CN108306997B (zh) 域名解析监控方法及装置
CN112380759B (zh) 基于深度学习和CoxPH模型的智能电表寿命预测方法
CN115878598A (zh) 监控数据处理方法、电子设备及存储介质
CN105207797A (zh) 故障定位方法和装置
CN109995547B (zh) 一种故障诊断方法及设备
CN106294066B (zh) 报警数据处理方法及装置
CN110825466A (zh) 一种程序卡顿的处理方法以及卡顿处理装置
KR20180106358A (ko) 예방 정비 시뮬레이션 시스템 및 방법
CN110609761B (zh) 确定故障源的方法、装置、存储介质和电子设备
CN111064637B (zh) NetFlow数据去重方法及装置
CN116383048A (zh) 软件质量信息处理方法及装置
CN112508207A (zh) 故障检测方法、装置、设备及存储介质
CN112804104A (zh) 一种预警方法、装置、设备及介质
RU2743505C2 (ru) Способ анализа нарушений функций встроенной системы, соответствующий компьютерный программный продукт и устройство анализа
CN115834335B (zh) 告警信息处理方法及装置、存储介质及电子设备
US20180293124A1 (en) Method and system for determining and reporting equipment operating conditions and health status
CN114168260A (zh) 一种虚拟机异常修复方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant