CN111488265A - 故障预测方法、装置、设备及可读存储介质 - Google Patents

故障预测方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN111488265A
CN111488265A CN202010344262.5A CN202010344262A CN111488265A CN 111488265 A CN111488265 A CN 111488265A CN 202010344262 A CN202010344262 A CN 202010344262A CN 111488265 A CN111488265 A CN 111488265A
Authority
CN
China
Prior art keywords
fault
characteristic information
information
service log
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010344262.5A
Other languages
English (en)
Inventor
冯浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN202010344262.5A priority Critical patent/CN111488265A/zh
Publication of CN111488265A publication Critical patent/CN111488265A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例提供了一种故障预测方法、装置、设备及可读存储介质,其中,故障预测方法可以包括:获取服务日志;基于服务日志中所包含的内容,确定服务日志的特征信息,特征信息用于表示服务日志的特征;获得故障特征信息,其中,故障特征信息是基于多个历史服务日志训练得到的;将服务日志的特征信息与故障特征信息进行匹配,并基于服务日志的特征信息与故障特征信息的匹配程度,通过预设匹配规则,进行故障预测。通过本发明实施例提供的故障预测方法、装置、设备及可读存储介质,能够提高故障定位的速度。

Description

故障预测方法、装置、设备及可读存储介质
技术领域
本发明涉及计算机应用技术领域,特别是涉及一种故障预测方法、装置、设备及可读存储介质。
背景技术
随着业务发展等的需求,互联网公司等的服务规模越来越大,需要的基础服务种类也越来越多,对服务可用性也提出了非常高的要求。可以通过拓扑结构的调整和增加冗余等方式不断提高容错性,从而保障服务的高可用性。另一方面,为了保障服务的可用性,对服务实现过程中的故障进行监测是一个重要的过程。
现有方式中一般都是故障发生后检测已发生的故障,并对已发生的故障进行修复。服务规模越来越大,实现服务过程中所涉及的设备越来越多、网络结构等也越来越复杂。现有方式在故障发生后,可能需要对服务过程中所涉及的所有设备、网络结构等均进行检测才能实现故障定位,如此会使得故障定位的速度较慢。
发明内容
本发明实施例的目的在于提供一种故障预测方法、装置、设备及可读存储介质,以提高故障定位的速度。具体技术方案如下:
在本发明实施的第一方面,首先提供了一种故障预测方法,包括:
获取服务日志;
基于所述服务日志中所包含的内容,确定所述服务日志的特征信息,所述特征信息用于表示所述服务日志的特征;
获得故障特征信息,其中,所述故障特征信息是基于多个历史服务日志训练得到的;
将所述服务日志的特征信息与所述故障特征信息进行匹配,并基于所述服务日志的特征信息与所述故障特征信息的匹配程度,通过预设匹配规则,进行故障预测。
可选的,所述将所述服务日志的特征信息与所述故障特征信息进行匹配,并基于所述服务日志的特征信息与所述故障特征信息的匹配程度,通过预设匹配规则,进行故障预测,包括:
确定所述服务日志的特征信息与各个所述故障特征信息的匹配程度,所述匹配程度用于表示述服务日志的特征信息与所述故障特征信息的相似度;
当所述匹配程度到达预设阈值时,将所述故障特征信息作为目标故障特征信息;
将所述目标故障特征信息所指示的故障确定为所述服务日志对应的预测的故障。
可选的,在所述将所述目标故障特征信息所指示的故障确定为所述服务日志对应的预测的故障之后,所述方法包括:
向业务端发送报警信息,所述报警信息用于指示所述预测的故障,以使所述业务端根据所述报警信息针对所述预测的故障进行处理。
可选的,在所述确定所述服务日志的特征信息与各个所述故障特征信息的匹配程度之后,所述方法还包括:
将所述匹配程度发送至报警自动处理系统,其中,所述报警自动处理系统根据所述匹配程度和所述预设阈值触发报警。
可选的,在所述当所述匹配程度到达预设阈值时,将所述故障特征信息作为目标故障特征信息之前,所述方法还包括:
获得故障恢复的能力,和/或发生故障产生的严重程度;
根据所述故障恢复的能力,和/或发生故障产生的严重程度,确定所述预设阈值。
可选的,在所述获得故障特征信息之前,所述方法还包括:
获取多个历史服务日志;
针对多个历史服务日志,确定所述历史服务日志的特征信息;
根据各个所述历史服务日志的特征信息,通过机器学习方式对多个历史服务日志进行训练,得到故障特征信息。
可选的,在所述根据各个所述历史服务日志的特征信息,通过机器学习方式对多个历史服务日志进行训练,得到故障特征信息之后,所述方法还包括:
获取所述故障特征信息对应的线上故障场景信息,其中,线上故障场景信息包括发生故障的真实场景相关的信息;
验证所述线上故障场景信息所表示的真实场景是否发生所述故障特征信息所指示的故障;
若所述线上故障场景信息所表示的真实场景未发生所述所指示的故障,则将所述真实场景实际发生的故障修改为更新故障,所述更新故障为所述故障特征信息所指示的新的故障。
在本发明实施的第二方面,还提供了一种故障预测装置,包括:
第一获取模块,用于获取服务日志;
第一确定模块,用于基于所述服务日志中所包含的内容,确定所述服务日志的特征信息,所述特征信息用于表示所述服务日志的特征;
第一获得模块,用于获得故障特征信息,其中,所述故障特征信息是基于多个历史服务日志训练得到的;
匹配模块,用于将所述服务日志的特征信息与所述故障特征信息进行匹配;
故障预测模块,用于基于所述服务日志的特征信息与所述故障特征信息的匹配程度,通过预设匹配规则,进行故障预测。
在本发明实施的第三方面,还提供了一种故障预测设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面所述的方法步骤。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法步骤。
在本发明实施的又一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法步骤。
本发明实施例提供的故障预测方法、装置、设备及可读存储介质,可以获取服务日志;基于服务日志中所包含的内容,确定服务日志的特征信息,特征信息用于表示服务日志的特征;获得故障特征信息,其中,故障特征信息是基于多个历史服务日志训练得到的;将服务日志的特征信息与故障特征信息进行匹配,并基于服务日志的特征信息与故障特征信息的匹配程度,通过预设匹配规则,进行故障预测。本发明实施例中,可以将服务日志的特征信息与基于多个历史服务日志训练得到的故障特征信息进行匹配,并通过服务日志的特征信息与故障特征信息的匹配程度进行故障预测,可以实现基于历史服务日志进行故障定位的方式,提高故障定位的速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的故障预测方法的流程图;
图2为本发明实施例中故障预测的流程图;
图3为本发明实施例中基于多个历史服务日志训练得到故障特征信息的流程图;
图4为本发明实施例中针对故障特征信息进行验证的流程示意图;
图5为本发明实施例提供的故障预测装置的一种结构示意图;
图6为本发明实施例提供的故障预测装置的另一种结构示意图;
图7为本发明实施例提供的故障预测装置的另一种结构示意图;
图8为本发明实施例提供的故障预测装置的另一种结构示意图;
图9为本发明实施例提供的故障预测装置的另一种结构示意图;
图10为本发明实施例提供的故障预测装置的另一种结构示意图;
图11为本发明实施例提供的故障预测设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
现有方式使得故障定位的速度较慢,而故障定位的速度较慢,即无法快速定位问题所在,进而无法快速实现对故障的修复,如即使有冗余资源也无法快速完成切换,如此,会影响服务可用性。另外,对于实时性要求较高的业务,因为会涉及上下游环节的切换或调整,现有在故障发生后检测已发生的故障,再针对已发生的故障调整服务,而故障时刻的临时调整也会影响线上服务整体的可用性。
而对于大型分布式系统,故障往往不是在某一时刻快速发生,而是有个触发过程,因此,可以根据故障发生前的迹象预测故障。还有,某些时刻的故障处理是无法进行切换的,可以通过一种提前预防的机制,为高峰期的切换准备充足的时间。且故障提前处理的时间和代价等,与故障发生时在处理的时间和代价也不一样。
为了提高故障定位的速度,解决大规模云服务场景下故障定位影响服务可用性的问题,以及故障处理可能会影响实时业务可用性的问题,同时,降低故障发生时处理的时间和代价,本发明实施例提供了一种故障预测方法。
本发明实施例提供的故障预测方法中,可以将服务日志的特征信息与基于多个历史服务日志训练得到的故障特征信息进行匹配,并通过服务日志的特征信息与故障特征信息的匹配程度进行故障预测,可以实现基于历史服务日志进行故障定位的方式,提高故障定位的速度。同时,可以基于预测的故障进行故障修复,如此可以提前进行干预,避免在故障发生再进行处理对服务可用性的影响,以提升服务的可用性。同时,降低在故障发生后再对故障进行处理而导致的时间和代价。
本发明实施例提供的故障预测方法可以应用于电子设备。具体地,电子设备可以为处理器、终端如个人电脑等等。
本发明实施例提供了一种故障预测方法,如图1所示,可以包括:
S101,获取服务日志;
S102,基于服务日志中所包含的内容,确定服务日志的特征信息,特征信息用于表示服务日志的特征;
S103,获得故障特征信息,其中,故障特征信息是基于多个历史服务日志训练得到的;
S104,将服务日志的特征信息与故障特征信息进行匹配,并基于服务日志的特征信息与故障特征信息的匹配程度,通过预设匹配规则,进行故障预测。
本发明实施例中,可以将服务日志的特征信息与基于多个历史服务日志训练得到的故障特征信息进行匹配,并通过服务日志的特征信息与故障特征信息的匹配程度进行故障预测,可以实现基于历史服务日志进行故障定位的方式,提高故障定位的速度。
参照图1,对本发明实施例提供的故障预测方法进行详细说明。如图1所示,可以包括:
S101,获取服务日志。
服务日志是服务实现过程中相关的日志信息。如运行服务的线程、设备等相关的信息等等。
具体地,可以通过日志采集系统实时记录服务相关的日志信息。电子设备中可以包括日志子模块,通过日志子模块从在线的日志系统中例如Venus日志采集系统中,获取服务的实时日志信息,即实时的服务日志。
S102,基于服务日志中所包含的内容,确定服务日志的特征信息,特征信息用于表示服务日志的特征。
服务日志的特征信息可以理解为表示服务日志的特征的信息。
服务日志中所包含的内容可以为多个字段的记录,如关于设备标识的记录,日志生成时间的记录,连接状态的记录,等等。
本发明实施例中,可以对服务日志打标签,对服务日志添加的标签可以理解为服务日志的特征信息。服务日志可以理解为包括多个字段的记录,则可以确定各个字段对应的标签,确定的标签即为服务日志的特征信息。
一种方式中,可以根据预先建立的对应关系,确定字段对应的标签,如可以预先建立服务日志中可能出现的字段以及标签的对应关系,当获取到服务日志时,则查找该对应关系,查找到服务日志中字段对应的标签。
另一种方式中,可以通过人工打标签的方式为服务日志打标签。如可以通过一个操作界面,将服务日志中的字段展示给用户,用户通过该操作界面输入字段对应的标签,如此可以接收到用户通过操作界面输入的字段对应的标签。
一条服务日志可以对应多个标签,而一个标签也可以理解为一个维度,多个标签即可以从多个维度表示服务日志的特征,以实现更完整、丰富地表示服务日志。一种可实现方式中,可以根据特征信息生成日志的特征画像,通过特征画像更加全面、直观地反映服务日志的特征信息。
S103,获得故障特征信息。
其中,故障特征信息是基于多个历史服务日志训练得到的。
一种可实现方式中,可以预先基于多个历史服务日志训练得到故障特征信息,当获取到实时的服务日志时,可以直接获取得到的故障特征信息,简单可以理解为离线学习以得到故障特征信息。
另一种可实现方式中,也可以在线学习以得到故障特征信息,即也可以在线基于历史服务日志训练得到故障特征信息,如当电子设备计算性能使得电子设备可以同时实现批处理及流处理时,在线获取服务日志的同时,基于历史服务日志训练得到故障特征信息。
S104,将服务日志的特征信息与故障特征信息进行匹配,并基于服务日志的特征信息与故障特征信息的匹配程度,通过预设匹配规则,进行故障预测。
电子设备中可以包括在线故障预测子模块,通过在线故障预测子模块将服务日志的特征信息与故障特征信息进行匹配,并通过服务日志的特征信息与故障特征信息的匹配程度进行故障预测。
预设匹配规则可以是匹配程度满足预设条件,或者匹配程度到达预设阈值。预设条件和预设阈值可以根据实际需求确定。一种可实现方式中,当服务日志的特征信息与故障特征信息的匹配程度到达预设阈值时进行故障预测,其中,预设阈值可以根据实际需求确定。
故障预测可以包括确定服务日志对应的预测的故障。
本发明实施例中,可以将服务日志的特征信息与基于多个历史服务日志训练得到的故障特征信息进行匹配,并通过服务日志的特征信息与故障特征信息的匹配程度进行故障预测,可以实现基于历史服务日志进行故障定位的方式,提高故障定位的速度。
如此可以实现快速定位故障,进而可以实现对故障的快速修复,如进行冗余资源的切换等,提前干预故障,如提前针对故障进行处理,避免故障发生时再处理对服务可用性的影响,提高服务的可用性。另外,对于实时性要求较高的业务,因为会涉及上下游环节的切换或调整,故障时刻的临时调整可能会影响线上服务整体的可用性,本发明实施例中预测故障,可以在故障发生前提前干预,如此能够降低临时调整对实时性要求较高的业务的可用性的影响。还有,某些时刻的故障处理是无法进行切换的,本发明实施例通过故障预测的方式,也即提前预防的机制,为高峰期的切换准备充足的时间。且相比较于故障发生时再针对故障进行处理,提前针对故障处理的时间和代价均较小。
一种可选的实施例中,基于历史服务日志训练得到的故障特征信息可以是多个。不同故障所满足的特征不同,不同的故障特征信息可以指示出不同的故障,即不同的故障特征信息对应不同的故障。
如图2所示,S104可以包括:
S1041,确定服务日志的特征信息与各个故障特征信息的匹配程度。
匹配程度用于表示述服务日志的特征信息与故障特征信息的相似度。
S1042,当匹配程度到达预设阈值时,将故障特征信息作为目标故障特征信息;将目标故障特征信息所指示的故障确定为服务日志对应的预测的故障。
预设阈值可以根据实际需求进行报警,如预设阈值为80%、90%等。如当服务日志的特征信息与故障特征信息的匹配程度,等于或者大于80%时则将故障特征信息作为目标故障特征信息;将目标故障特征信息所指示的故障确定为服务日志对应的预测的故障。
一种可实现方式中,不同的业务可以对应不同的预设阈值。如可以对业务重要程度较高的业务确定较小的阈值,如此,可以避免对故障的遗漏;而对业务重要程度较低的业务确定较大的阈值,可以避免过于频繁的报警对业务端业务运行过程的影响,等等。
一种可选的实施例中,在S1042中当匹配程度到达预设阈值时,将故障特征信息作为目标故障特征信息之前,本发明实施例提供的故障预测方法还包括:
获得故障恢复的能力,和/或发生故障产生的严重程度;根据故障恢复的能力,和/或发生故障产生的严重程度,确定预设阈值。
可以对故障恢复能力、故障严重程度进行量化表示,如故障恢复能力可以通过故障恢复的时间等表示,故障严重程度可以通过影响的设备的个数等表示,如此,可以根据量化表示的故障恢复能力,和/或故障严重程度。确定预设阈值。
故障恢复的能力,和/或发生故障产生的严重程度也可以是有经验的维护人员根据历史发生的故障确定的经验值,电子设备可以保存该经验值,如此,待进行故障预测时,可以直接获得故障恢复的能力,和/或发生故障产生的严重程度,并根据故障恢复的能力,和/或发生故障产生的严重程度,确定预设阈值,基于服务日志的特征信息与故障特征信息的匹配程度以及预设阈值进行故障预测。
当故障较难恢复、或者发生故障的后果比较严重,造成的危害比较大,可以设置比较小的阈值,即在匹配程度比较小时预测故障,触发报警等;而当故障较容易恢复、或者发生故障的后果相对较小,造成的危害比较小,可以设置比较大的阈值,即在匹配程度比较大时预测故障,触发报警等。如此,可以确定与故障匹配的预设阈值,进一步能够提高基于匹配程度和预设阈值进行故障预测的准确性。
具体地,确定预设阈值可以是接收维护人员根据经验值确定的预设阈值,如可以提供一个输入界面,接收维护人员通过该输入界面设置的预设阈值。
本发明实施例中,电子设备可以直接触发报警;或者,电子设备也可以通过下游的报警自动处理系统触发报警。
一种可选的实施例中,在S1042中将目标故障特征信息所指示的故障确定为服务日志对应的预测的故障之后,本发明实施例提供的故障预测方法可以包括:
向业务端发送报警信息。
报警信息用于指示预测的故障,以使业务端根据报警信息针对预测的故障进行处理。
如此,可以实现当服务日志的特征信息与故障特征信息的匹配程度,到达预设阈值时触发报警。如预设阈值可以根据实际需求进行报警,如预设阈值为80%、90%等。如当服务日志的特征信息与故障特征信息的匹配程度,等于或者大于80%时则触发报警。如此,可以实现提前针对故障的报警干预,使得业务端等可以提前针对故障进行处理,实现针对故障的修复等。
另一种可实现方式中,在S1041之后,本发明实施例提供的故障预测方法可以包括:
将匹配程度发送至报警自动处理系统。
其中,报警自动处理系统根据匹配程度和预设阈值触发报警。
报警自动处理系统触发报警的过程与电子设备直接触发报警的过程类似,如报警自动处理系统向业务端发送报警信息,报警信息用于指示预测的故障,业务端可以针对预测的故障进行处理。
电子设备可以将得到的匹配程度发送给下游的报警自动处理系统,该报警自动处理系统根据该匹配程度以及预设阈值进行报警,其中,预设阈值也可以理解为触发服务自愈干预的阈值。报警自动处理系统实现报警过程,可以减轻电子设备的计算压力,且报警自动处理系统可以与多个业务端分别交互,自定义地确定各个业务分别对应的触发报警的阈值,可以根据业务的不同实现与业务匹配的报警,如可以对业务重要程度较高的业务确定较小的阈值,如此,避免对故障的遗漏,而对业务重要程度较低的业务确定较大的阈值,可以避免过于频繁的报警对业务端业务运行过程的影响,等等。
一种可选的实施例中,在S103之前,如图3所示,还可以包括:
S301,获取多个历史服务日志。
本发明实施例中,可以通过日志采集器采集服务实现过程中产生的服务日志,并将采集得到的服务日志汇总至如消息系统Kafka(卡夫卡)对应的Kafka.ES中进行离线存储,其中,ES是Elasticsearch(搜索服务器)的简称。电子设备中可以包括历史日志采集器,通过历史日志采集器从存储器如Kafka.ES中获取离线存储的服务日志,也即历史服务日志。
S302,针对多个历史服务日志,确定历史服务日志的特征信息。
一种可实现方式中,电子设备中可以包括特征提取子模块,特征提取子模块针对多个历史服务日志,确定历史服务日志的特征信息。
可以基于历史服务日志中所包含的内容,确定历史服务日志的特征信息,历史服务日至的特征信息用于表示该历史服务日志的特征。
历史服务日志中所包含的内容可以为多个字段的记录,如关于设备标识的记录,日志生成时间的记录,连接状态的记录,等等。
本发明实施例中,可以对历史服务日志打标签,对历史服务日志添加的标签可以理解为历史服务日志的特征信息。历史服务日志可以理解为包括多个字段的记录,则可以确定各个字段对应的标签,确定的标签即为历史服务日志的特征信息。
确定历史服务日志的特征信息的过程与确定实时采集的服务日志的特征信息的过程类似,上述步骤S102中是针对实时采集的服务日志,确定服务日志的特征信息,针对多个历史服务日志,确定历史服务日志的特征信息具体可以参照上述步骤S102,这里不再赘述。
S303,根据各个历史服务日志的特征信息,通过机器学习方式对多个历史服务日志进行训练,得到故障特征信息。
故障特征信息可以包括故障对应的特征信息和无故障对应的特征信息。进一步地,故障特征信息可以包括针对不同类型的故障信息,该类型的故障信息与该类型的故障信息对应的特征信息,即包括特征信息与故障类型的对应关系。其中,不同故障类型也可以对应不同的故障场景。
本发明实施例不对机器学习方式作限制,可以实现对历史服务日志进行训练以得到故障特征信息的方式均在本发明实施例的保护范围。
一种可选的实施例中,可以采用无监督训练学习方式,具体地,可以对多个历史服务日志进行无监督训练学习,得到故障特征信息。具体地,可以训练学习具有相同特征信息的历史服务日志是否均表示有故障,若具有相同特征信息的历史服务日志均有故障,则可以得到均表示有故障的历史服务日志具有的相同特征信息为故障特征信息。
一种可实现方式中,故障特征信息可以为包括多个特征信息的故障特征信息集合。
本发明实施例中,通过对历史服务日志进行学习分析,得到故障特征信息,如此,当获取到实时的服务日志后,可以将该实时的服务日志的特征信息与故障特征信息进行匹配,通过实时的服务日志的特征信息与故障特征信息的匹配程度进行故障预测,以使得可以通过基于历史服务日志得到的故障特征信息,针对实时得到的服务日志进行故障预测。进一步地,进行故障预测后可以针对故障进行修复,实现故障自愈,进而实现服务自愈等。本发明实施例中,可以通过机器学习的方式对多个历史服务日志进行训练学习得到故障特征信息,即可以实现机器学习的方式应用到服务自愈领域,实现针对故障的提前干预。
一种可选的实施例中,在S303之后,如图4所示,还可以包括:
S401,获取故障特征信息对应的线上故障场景信息。
其中,线上故障场景信息包括发生故障的真实场景相关的信息。
线上故障场景信息可以从线上业务中获取。具体地,在业务运行服务的过程中,可以记录发生故障的场景相关的信息,即线上故障场景信息。
S402,验证线上故障场景信息所表示的真实场景是否发生故障特征信息所指示的故障。
在基于历史服务日志训练得到故障特征信息的过程中,可以结合线上真实的故障场景对训练得到的结果进行校验。具体地,可以根据线上故障场景信息对故障特征信息进行校验,如验证线上故障场景信息所表示的真实场景是否发生故障特征信息所指示的故障,也可以验证所表示的故障类型是否准确,等等。
S403,若线上故障场景信息所表示的真实场景未发生所指示的故障,则将真实场景实际发生的故障修改为更新故障,更新故障为故障特征信息所指示的新的故障。
即根据线上故障场景信息实现对故障特征信息所指示的故障进行更新。也即通过结合线上真实的故障场景对训练得到的结果进行校验,可以提高得到的故障特征信息的准确率,进而可以提高在基于故障特征信息进行故障预测时的准确度。
本发明实施例中,可以是离线学习,在线预测。具体地,可以基于历史服务日志,离线训练以得到故障特征信息。然后,在获取实时的服务日志时,将实时的服务日志的特征信息与故障特征信息进行匹配,通过服务日志的特征信息与故障特征信息的匹配程度对服务日志所指示的故障进行预测,也可以理解为确定实时的服务日志所指示的预测的故障。
或者,也可以在线学习且在线预测。如一种方式中,当设备计算性能好且可以同时实现批处理及流处理时,也可以在线学习且在线预测。具体地,可以在获取到在线的服务日志时,基于历史服务日志,在线训练以得到故障特征信息,即在线学习。并将实时的服务日志的特征信息与故障特征信息进行匹配,通过服务日志的特征信息与故障特征信息的匹配程度对服务日志所指示的故障进行预测,也可以理解为确定实时的服务日志所指示的预测的故障。
一种可选的实施例中,可以包括离线学习模块和在线预测模块,离线学习模块对线上离线日志进行学习分析,提取故障特征信息供后续在线预测使用。在线预测模块根据故障特征信息,结合实时的服务日志进行在线的故障预测。
本发明实施例提供了一种全新的故障定位的方式,具体地,通过对历史服务日志的离线处理进行机器学习以得到故障特征信息,并将实时的服务日志的特征信息与预先提取得到的故障特征信息进行对比、匹配以实现针对故障的预测,可以大幅度提升故障定位的速度,缩短故障定位的时间。同时,可以提前预警,并针对故障提前处理,如进行冗余资源切换、下线处理等等,实现针对故障的提前干预以及自愈修复等,如此能够使得服务可用率提升。尤其对于已经发生过的故障,例如“节点只读”、”内存溢出(Outofmemory,OOM)”、”已知的Bug”等等,可以实现秒级定位问题,且提前干预故障的发生,服务可用率明显提升。
对应于上述实施例提供的故障预测方法,本发明实施例提供了一种故障预测装置,如图5所示,可以包括:
第一获取模块501,用于获取服务日志;
第一确定模块502,用于基于服务日志中所包含的内容,确定服务日志的特征信息,特征信息用于表示服务日志的特征;
第一获得模块503,用于获得故障特征信息,其中,故障特征信息是基于多个历史服务日志训练得到的;
匹配模块504,用于将服务日志的特征信息与故障特征信息进行匹配;
故障预测模块505,用于基于服务日志的特征信息与故障特征信息的匹配程度,通过预设匹配规则,进行故障预测。
本发明实施例中,可以将服务日志的特征信息与基于多个历史服务日志训练得到的故障特征信息进行匹配,并通过服务日志的特征信息与故障特征信息的匹配程度进行故障预测,可以实现基于历史服务日志进行故障定位的方式,提高故障定位的速度。
可选的,故障预测模块505,具体用于确定服务日志的特征信息与各个故障特征信息的匹配程度,匹配程度用于表示述服务日志的特征信息与故障特征信息的相似度;当匹配程度到达预设阈值时,将故障特征信息作为目标故障特征信息;将目标故障特征信息所指示的故障确定为服务日志对应的预测的故障。
可选的,如图6所示,装置还包括:
第一发送模块506,用于在将目标故障特征信息所指示的故障确定为服务日志对应的预测的故障之后,向业务端发送报警信息,报警信息用于指示预测的故障,以使业务端根据报警信息针对预测的故障进行处理。
可选的,如图7所示,装置还包括:
第二发送模块507,用于在确定服务日志的特征信息与各个故障特征信息的匹配程度之后,将匹配程度发送至报警自动处理系统,其中,报警自动处理系统根据匹配程度和预设阈值触发报警。
可选的,如图8所示,装置还包括:
第二获得模块801,用于在当匹配程度到达预设阈值时,将故障特征信息作为目标故障特征信息之前,获得故障恢复的能力,和/或发生故障产生的严重程度;
第二确定模块802,用于根据故障恢复的能力,和/或发生故障产生的严重程度,确定预设阈值。
可选的,如图9所示,装置还包括:
第二获取模块901,用于在获得故障特征信息之前,获取多个历史服务日志;
第三确定模块902,用于针对多个历史服务日志,确定历史服务日志的特征信息;
训练模块903,用于根据各个历史服务日志的特征信息,通过机器学习方式对多个历史服务日志进行训练,得到故障特征信息。
可选的,如图10所示,装置还包括:
第三获取模块1001,用于在根据各个历史服务日志的特征信息,对多个历史服务日志进行训练,得到故障特征信息之后,获取故障特征信息对应的线上故障场景信息,其中,线上故障场景信息包括发生故障的真实场景相关的信息;
验证模块1002,用于验证线上故障场景信息所表示的真实场景是否发生故障特征信息所指示的故障;
更新模块1003,用于若线上故障场景信息所表示的真实场景未发生所指示的故障,则将真实场景实际发生的故障修改为更新故障,更新故障为故障特征信息所指示的新的故障。
本发明实施例提供的故障预测装置是应用上述故障预测方法的装置,则上述故障预测方法的所有实施例均适用于该装置,且均能达到相同或相似的有益效果。
对应于上述实施例提供的故障预测方法,本发明实施例还提供了一种故障预测设备,如图11所示,包括处理器1101、通信接口1102、存储器1103和通信总线1104,其中,处理器1101,通信接口1102,存储器1103通过通信总线1104完成相互间的通信。
存储器1103,用于存放计算机程序;
处理器1101,用于执行存储器1103上所存放的程序时,实现上述实施例提供的故障预测方法的方法步骤。
本发明实施例中,可以将服务日志的特征信息与基于多个历史服务日志训练得到的故障特征信息进行匹配,并通过服务日志的特征信息与故障特征信息的匹配程度进行故障预测,可以实现基于历史服务日志进行故障定位的方式,提高故障定位的速度。
上述故障预测设备提到的通信总线可以是外设部件互连标准(PeripheralComponent Interconnect,简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述故障预测设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
对应于上述实施例提供的故障预测方法,在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例提供的故障预测方法的方法步骤。
本发明实施例中,可以将服务日志的特征信息与基于多个历史服务日志训练得到的故障特征信息进行匹配,并通过服务日志的特征信息与故障特征信息的匹配程度进行故障预测,可以实现基于历史服务日志进行故障定位的方式,提高故障定位的速度。
对应于上述实施例提供的故障预测方法,在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例提供的故障预测方法的方法步骤。
本发明实施例中,可以将服务日志的特征信息与基于多个历史服务日志训练得到的故障特征信息进行匹配,并通过服务日志的特征信息与故障特征信息的匹配程度进行故障预测,可以实现基于历史服务日志进行故障定位的方式,提高故障定位的速度。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、计算机可读存储介质以及计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种故障预测方法,其特征在于,包括:
获取服务日志;
基于所述服务日志中所包含的内容,确定所述服务日志的特征信息,所述特征信息用于表示所述服务日志的特征;
获得故障特征信息,其中,所述故障特征信息是基于多个历史服务日志训练得到的;
将所述服务日志的特征信息与所述故障特征信息进行匹配,并基于所述服务日志的特征信息与所述故障特征信息的匹配程度,通过预设匹配规则,进行故障预测。
2.根据权利要求1所述的方法,其特征在于,所述将所述服务日志的特征信息与所述故障特征信息进行匹配,并基于所述服务日志的特征信息与所述故障特征信息的匹配程度,通过预设匹配规则,进行故障预测,包括:
确定所述服务日志的特征信息与各个所述故障特征信息的匹配程度,所述匹配程度用于表示述服务日志的特征信息与所述故障特征信息的相似度;
当所述匹配程度到达预设阈值时,将所述故障特征信息作为目标故障特征信息;
将所述目标故障特征信息所指示的故障确定为所述服务日志对应的预测的故障。
3.根据权利要求2所述的方法,其特征在于,在所述将所述目标故障特征信息所指示的故障确定为所述服务日志对应的预测的故障之后,所述方法包括:
向业务端发送报警信息,所述报警信息用于指示所述预测的故障,以使所述业务端根据所述报警信息针对所述预测的故障进行处理。
4.根据权利要求2所述的方法,其特征在于,在所述确定所述服务日志的特征信息与各个所述故障特征信息的匹配程度之后,所述方法还包括:
将所述匹配程度发送至报警自动处理系统,其中,所述报警自动处理系统根据所述匹配程度和所述预设阈值触发报警。
5.根据权利要求2至4任一项所述的方法,其特征在于,在所述当所述匹配程度到达预设阈值时,将所述故障特征信息作为目标故障特征信息之前,所述方法还包括:
获得故障恢复的能力,和/或发生故障产生的严重程度;
根据所述故障恢复的能力,和/或发生故障产生的严重程度,确定所述预设阈值。
6.根据权利要求1所述的方法,其特征在于,在所述获得故障特征信息之前,所述方法还包括:
获取多个历史服务日志;
针对多个历史服务日志,确定所述历史服务日志的特征信息;
根据各个所述历史服务日志的特征信息,通过机器学习方式对多个历史服务日志进行训练,得到故障特征信息。
7.根据权利要求6所述的方法,其特征在于,在所述根据各个所述历史服务日志的特征信息,通过机器学习方式对多个历史服务日志进行训练,得到故障特征信息之后,所述方法还包括:
获取所述故障特征信息对应的线上故障场景信息,其中,线上故障场景信息包括发生故障的真实场景相关的信息;
验证所述线上故障场景信息所表示的真实场景是否发生所述故障特征信息所指示的故障;
若所述线上故障场景信息所表示的真实场景未发生所述所指示的故障,则将所述真实场景实际发生的故障修改为更新故障,所述更新故障为所述故障特征信息所指示的新的故障。
8.一种故障预测装置,其特征在于,包括:
第一获取模块,用于获取服务日志;
第一确定模块,用于基于所述服务日志中所包含的内容,确定所述服务日志的特征信息,所述特征信息用于表示所述服务日志的特征;
第一获得模块,用于获得故障特征信息,其中,所述故障特征信息是基于多个历史服务日志训练得到的;
匹配模块,用于将所述服务日志的特征信息与所述故障特征信息进行匹配;
故障预测模块,用于基于所述服务日志的特征信息与所述故障特征信息的匹配程度,通过预设匹配规则,进行故障预测。
9.一种故障预测设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。
CN202010344262.5A 2020-04-27 2020-04-27 故障预测方法、装置、设备及可读存储介质 Pending CN111488265A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010344262.5A CN111488265A (zh) 2020-04-27 2020-04-27 故障预测方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010344262.5A CN111488265A (zh) 2020-04-27 2020-04-27 故障预测方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN111488265A true CN111488265A (zh) 2020-08-04

Family

ID=71795373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010344262.5A Pending CN111488265A (zh) 2020-04-27 2020-04-27 故障预测方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111488265A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112418449A (zh) * 2020-10-13 2021-02-26 国网山东省电力公司莘县供电公司 一种供电线路故障定位模型的生成方法、定位方法、装置
CN113055745A (zh) * 2021-03-30 2021-06-29 脸萌有限公司 视频播放的处理方法、装置、设备及存储介质
CN113093702A (zh) * 2021-03-31 2021-07-09 上海明略人工智能(集团)有限公司 故障数据的预测方法和装置、电子设备和存储介质
CN116192612A (zh) * 2023-04-23 2023-05-30 成都新西旺自动化科技有限公司 一种基于日志分析的系统故障监测和预警系统及方法
CN116522501A (zh) * 2023-05-05 2023-08-01 中国船级社上海规范研究所 基于安全返港的实船验证系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653444A (zh) * 2015-12-23 2016-06-08 北京大学 基于互联网日志数据的软件缺陷故障识别方法和系统
CN108415789A (zh) * 2018-01-24 2018-08-17 西安交通大学 面向大规模混合异构存储系统的节点故障预测系统及方法
CN109309594A (zh) * 2018-11-27 2019-02-05 中国联合网络通信集团有限公司 通信设备电源故障分析的方法、装置、设备及存储介质
CN109840157A (zh) * 2017-11-28 2019-06-04 中国移动通信集团浙江有限公司 故障诊断的方法、装置、电子设备和存储介质
CN110647446A (zh) * 2018-06-26 2020-01-03 中兴通讯股份有限公司 一种日志故障关联与预测方法、装置、设备及存储介质
CN110750377A (zh) * 2019-09-06 2020-02-04 深圳平安通信科技有限公司 一种故障定位方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653444A (zh) * 2015-12-23 2016-06-08 北京大学 基于互联网日志数据的软件缺陷故障识别方法和系统
CN109840157A (zh) * 2017-11-28 2019-06-04 中国移动通信集团浙江有限公司 故障诊断的方法、装置、电子设备和存储介质
CN108415789A (zh) * 2018-01-24 2018-08-17 西安交通大学 面向大规模混合异构存储系统的节点故障预测系统及方法
CN110647446A (zh) * 2018-06-26 2020-01-03 中兴通讯股份有限公司 一种日志故障关联与预测方法、装置、设备及存储介质
CN109309594A (zh) * 2018-11-27 2019-02-05 中国联合网络通信集团有限公司 通信设备电源故障分析的方法、装置、设备及存储介质
CN110750377A (zh) * 2019-09-06 2020-02-04 深圳平安通信科技有限公司 一种故障定位方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112418449A (zh) * 2020-10-13 2021-02-26 国网山东省电力公司莘县供电公司 一种供电线路故障定位模型的生成方法、定位方法、装置
CN113055745A (zh) * 2021-03-30 2021-06-29 脸萌有限公司 视频播放的处理方法、装置、设备及存储介质
CN113055745B (zh) * 2021-03-30 2023-05-16 脸萌有限公司 视频播放的处理方法、装置、设备及存储介质
CN113093702A (zh) * 2021-03-31 2021-07-09 上海明略人工智能(集团)有限公司 故障数据的预测方法和装置、电子设备和存储介质
CN113093702B (zh) * 2021-03-31 2023-02-17 上海明略人工智能(集团)有限公司 故障数据的预测方法和装置、电子设备和存储介质
CN116192612A (zh) * 2023-04-23 2023-05-30 成都新西旺自动化科技有限公司 一种基于日志分析的系统故障监测和预警系统及方法
CN116522501A (zh) * 2023-05-05 2023-08-01 中国船级社上海规范研究所 基于安全返港的实船验证系统
CN116522501B (zh) * 2023-05-05 2024-02-13 中国船级社上海规范研究所 基于安全返港的实船验证系统

Similar Documents

Publication Publication Date Title
CN111488265A (zh) 故障预测方法、装置、设备及可读存储介质
CN113282461B (zh) 传输网的告警识别方法和装置
CN111475370A (zh) 基于数据中心的运维监控方法、装置、设备及存储介质
CN111814999B (zh) 一种故障工单生成方法、装置、设备
CN108460397B (zh) 设备故障类型的分析方法、装置、储存介质和电子设备
CN112152823B (zh) 网站运行错误监控方法、装置及计算机存储介质
CN108664603B (zh) 一种修复时序数据的异常聚合值的方法及装置
CN112783682A (zh) 一种基于云手机服务的异常自动修复方法
CN111666978B (zh) 一种it系统运维大数据的智能故障预警系统
CN111767193A (zh) 一种服务器数据异常检测方法、装置、存储介质及设备
CN116089231A (zh) 一种故障告警方法、装置、电子设备及存储介质
CN113537652A (zh) 设备健康监控预警方法、系统、储存介质和设备
CN109639456B (zh) 一种自动化告警的改进方法及告警数据的自动化处理平台
CN114647558A (zh) 一种日志异常检测的方法和装置
CN113778802A (zh) 异常预测方法及设备
CN116755974A (zh) 云计算平台运维方法、装置、电子设备及存储介质
Nam et al. Virtual machine failure prediction using log analysis
CN111813872B (zh) 一种故障排查模型的生成方法、装置、设备
CN111935279B (zh) 基于区块链和大数据的物联网络维护方法及计算节点
CN114385398A (zh) 一种请求响应状态确定方法、装置、设备和存储介质
CN113300918A (zh) 智慧灯杆的故障检测方法、终端设备及存储介质
CN114327988A (zh) 一种可视化网络故障关系确定方法和装置
CN114021750A (zh) 一种工单处理方法、装置及存储介质
CN111835566A (zh) 一种系统故障管理方法、装置及系统
CN116260640B (zh) 基于人工智能进行大数据分析的信息拦截控制方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200804