CN115037597A - 一种故障检测方法及设备 - Google Patents

一种故障检测方法及设备 Download PDF

Info

Publication number
CN115037597A
CN115037597A CN202210555479.XA CN202210555479A CN115037597A CN 115037597 A CN115037597 A CN 115037597A CN 202210555479 A CN202210555479 A CN 202210555479A CN 115037597 A CN115037597 A CN 115037597A
Authority
CN
China
Prior art keywords
fault
target
equipment
upstream
target equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210555479.XA
Other languages
English (en)
Other versions
CN115037597B (zh
Inventor
朱璐闻
罗泽文
冯峥
吴娇娇
乔羽
刘见
聂守帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense TransTech Co Ltd
Original Assignee
Hisense TransTech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense TransTech Co Ltd filed Critical Hisense TransTech Co Ltd
Priority to CN202210555479.XA priority Critical patent/CN115037597B/zh
Publication of CN115037597A publication Critical patent/CN115037597A/zh
Application granted granted Critical
Publication of CN115037597B publication Critical patent/CN115037597B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请涉及计算机技术领域,尤其涉及一种故障检测方法及设备。本申请实施例确定包含多个设备的待检测系统中发生故障告警的目标设备;获取目标设备的运行日志,以及从目标设备对应的故障信息知识图谱中获取目标设备对应的至少一个故障关键字;根据目标设备对应的故障关键字以及运行日志中的软件日志,对目标设备进行故障检测;和/或,根据目标设备对应的故障关键字以及运行日志中的通信日志,对待检测系统中目标设备对应的上游通信链路进行故障检测;上游通信链路包括影响目标设备的运行状态的上游设备之间的通信链路和/或目标设备与上游设备之间的通信链路。

Description

一种故障检测方法及设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种故障检测方法及设备。
背景技术
设备和通信发生故障具有随机性、无规律性和不确定性,随着科技的快速发展,系统中包含的设备变得越来越繁多复杂,随着设备的使用时间增长,故障频率也随着上升。在设备发生故障时,现有的技术方案大多是对于单一设备的故障检测,具有局限性;而针对由多个设备组成的系统,在系统中的某一个设备告警之后,只能由技术人员手动获取日志,对系统中的各个设备依次进行故障排查,效率较低并且时间较长。
因此,目前针对由多个设备组成的系统进行故障检测的方案效率较低。
发明内容
本申请实施例提供一种故障检测方法及设备,用以提高对由多个设备组成的系统进行故障检测的效率。
第一方面,本申请实施例提供一种故障检测方法,包括:
确定包含多个设备的待检测系统中发生故障告警的目标设备;
获取所述目标设备的运行日志,以及从所述目标设备对应的故障信息知识图谱中获取所述目标设备对应的至少一个故障关键字;其中,所述故障信息知识图谱是在检测到所述目标设备发生故障后根据所述目标设备的历史故障数据生成的,且所述故障关键字用于表示所述目标设备发生故障后的故障类型;
根据所述目标设备对应的故障关键字以及所述运行日志中的软件日志,对所述目标设备进行故障检测;和/或,根据所述目标设备对应的故障关键字以及所述运行日志中的通信日志,对所述待检测系统中所述目标设备对应的上游通信链路进行故障检测;所述上游通信链路包括影响所述目标设备的运行状态的上游设备之间的通信链路和/或所述目标设备与所述上游设备之间的通信链路。
可选的,所述根据所述目标设备对应的故障关键字以及所述运行日志中的软件日志,对所述目标设备进行故障检测,具体包括:
将所述目标设备的运行日志中的软件日志与所述目标设备对应至少一个故障关键字进行匹配;
若软件日志包含故障关键字,则确定所述目标设备发生故障。
可选的,在所述确定所述目标设备发生故障之后,所述方法还包括:
确定所述目标设备的软件日志中包含的故障关键字;
根据所述目标设备的软件日志包含的故障关键字,以及故障关键字与故障类型之间的对应关系,确定所述目标设备发生故障的故障类型。
可选的,所述在获取所述目标设备的运行日志,以及从所述目标设备对应的故障信息知识图谱中获取所述目标设备对应的至少一个故障关键字之后,在根据所述目标设备对应的故障关键字以及所述运行日志中的通信日志,对所述待检测系统中所述目标设备对应的上游通信链路进行故障检测之前,所述方法还包括:
获取所述待检测系统对应的网络拓扑模型;
根据获取到的所述网络拓扑模型,确定所述待检测系统中影响所述目标设备运行状态的上游设备集合;
根据确定出的所述上游设备集合,确定所述目标设备对应的上游通信链路。
可选的,所述根据所述目标设备对应的故障关键字以及所述运行日志中的通信日志,对所述待检测系统中所述目标设备对应的上游通信链路进行故障检测,具体包括:
根据所述目标设备对应的故障关键字,以及所述目标设备的通信日志中所述目标设备与上游设备之间的通信日志,对所述目标设备与所述上游设备之间的上游通信链路进行故障检测;和/或
根据所述目标设备对应的故障关键字,以及所述上游设备集合中各个上游设备之间的通信日志,对上游设备之间的上游通信链路进行故障检测。
可选的,所述根据所述目标设备对应的故障关键字,以及所述目标设备的通信日志中所述目标设备与上游设备之间的通信日志,对所述目标设备与所述上游设备之间的上游通信链路进行故障检测,具体包括:
将所述目标设备与上游设备之间的通信日志与所述目标设备对应的至少一个故障关键字进行匹配;
若所述目标设备与上游设备之间的通信日志中包含所述目标设备对应的故障关键字,则确定所述目标设备与所述上游设备之间的上游通信链路发生故障。
可选的,所述根据所述目标设备对应的故障关键字,以及所述上游设备集合中各个上游设备之间的通信日志,对上游设备之间的上游通信链路进行故障检测,具体包括:
将所述上游设备集合中各个上游设备之间的通信日志与所述目标设备对应的至少一个故障关键字进行匹配;
若所述上游设备集合中的两个上游设备之间的通信日志中包含故障关键字,则确定所述两个上游设备之间的上游通信链路发生故障。
可选的,在所述确定包含多个设备的待检测系统中发生故障告警的目标设备之后,该方法还包括:
根据所述目标设备对应的故障知识图谱,确定所述目标设备对应的故障频率参数;
若所述目标设备对应的故障频率参数大于阈值,则根据所述目标设备对应的故障知识图谱中包含的历史故障类型生成故障诊断推荐信息,并向用户展示生成的所述故障诊断推荐信息,以使所述用户根据所述故障诊断推荐信息进行故障诊断。
可选的,所述根据所述目标设备对应的故障知识图谱中包含的历史故障类型生成故障诊断推荐信息,具体包括:
从所述目标设备对应的故障知识图谱中获取所述目标设备的至少一个历史故障类型,并从所述目标设备对应的故障知识图谱中获取每个历史故障类型对应的频率值;
根据每个历史故障类型对应的频率值,将频率值最大的历史故障类型作为故障诊断信息;或者,将所述至少一个历史故障类型进行排序,并生成包含所述至少一个历史故障类型的排序信息的故障诊断推荐信息,以使所述用户根据所述少一个历史故障类型的排序信息依次对所述目标设备进行故障诊断。
第二方面,本申请实施例提供一种故障检测设备,该设备包括至少一个处理器、以及至少一个存储器;其中,存储器存储有程序代码,当程序代码被处理器执行时,使得处理器执行下列过程:
确定包含多个设备的待检测系统中发生故障告警的目标设备;
获取所述目标设备的运行日志,以及从所述目标设备对应的故障信息知识图谱中获取所述目标设备对应的至少一个故障关键字;其中,所述故障信息知识图谱是在检测到所述目标设备发生故障后根据所述目标设备的历史故障数据生成的,且所述故障关键字用于表示所述目标设备发生故障后的故障类型;
根据所述目标设备对应的故障关键字以及所述运行日志中的软件日志,对所述目标设备进行故障检测;和/或,根据所述目标设备对应的故障关键字以及所述运行日志中的通信日志,对所述待检测系统中所述目标设备对应的上游通信链路进行故障检测;所述上游通信链路包括影响所述目标设备的运行状态的上游设备之间的通信链路和/或所述目标设备与所述上游设备之间的通信链路。
第三方面,本申请实施例提供一种故障检测装置,包括:
确定模块,用于确定包含多个设备的待检测系统中发生故障告警的目标设备;
获取模块,用于获取所述目标设备的运行日志,以及从所述目标设备对应的故障信息知识图谱中获取所述目标设备对应的至少一个故障关键字;其中,所述故障信息知识图谱是在检测到所述目标设备发生故障后根据所述目标设备的历史故障数据生成的,且所述故障关键字用于表示所述目标设备发生故障后的故障类型;
检测模块,用于根据所述目标设备对应的故障关键字以及所述运行日志中的软件日志,对所述目标设备进行故障检测;和/或,根据所述目标设备对应的故障关键字以及所述运行日志中的通信日志,对所述待检测系统中所述目标设备对应的上游通信链路进行故障检测;所述上游通信链路包括影响所述目标设备的运行状态的上游设备之间的通信链路和/或所述目标设备与所述上游设备之间的通信链路。
第四方面,本申请实施例提供一种计算机可读写存储介质,其包括程序代码,当所述程序代码在电子设备上运行时,所述程序代码用于使所述电子设备执行上述第一方面所述方法的步骤。
本申请实施例中,通过监控设备中显示的故障告警,确定包含多个设备的待检测系统中发生故障告警的目标设备;根据目标设备对应的故障关键字以及运行日志中的软件日志,对目标设备进行故障检测,确定目标设备是否发生故障,和/或,根据目标设备对应的故障关键字以及运行日志中的通信日志,对待检测系统中目标设备对应的上游通信链路进行故障检测,确定待检测系统中目标设备的上游通信链路是否发生故障。基于本申请实施例提供的故障检测方式,可以快速排查待检测系统整体、定位设备或通信发生故障的通信链路、分析故障类型,保证问题出现时能够及时诊断分析,且本申请实施例提供的故障检测方式不仅仅是对单一设备的故障检测,可以及时全面对待检测系统进行故障检测,且在对目标设备对应的上游通信链路进行故障检测时,不需要提前配置知晓待检测系统中各个设备之间的通信类型,提升故障检测效率,缩短故障检测时间。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面所介绍的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一种可选的故障检测方法的应用场景示意图;
图2为本申请实施例一种故障检测方法流程图;
图3为本申请实施例一种监控设备的显示界面示意图;
图4为本申请实施例一种故障告警记录的示意图;
图5为本申请实施例一种故障信息知识图谱的示意图;
图6为本申请实施例一种故障信息知识图谱外延该设备历史出现过的具体故障类型的示意图;
图7为本申请实施例一种故障信息知识图谱外延故障类型具体信息的示意图;
图8为本申请实施例一种故障关键字字典与故障关键字关系的示意图;
图9为本申请实施例一种故障关键字与故障类型之间的对应关系的示意图;
图10为本申请实施例一种向用户展示生成的诊断报告的示意图;
图11为本申请实施例一种针对目标设备的上游通信链路进行故障检测方法流程图;
图12为本申请实施例一种网络拓扑模型的节点示意图;
图13为本申请实施例一种目标设备、同级设备与其父级设备在网络拓扑模型中的示意图;
图14为本申请实施例一种网络拓扑模型的示意图;
图15为本申请实施例一种生成故障诊断推荐信息的流程图;
图16为本申请实施例一种向用户展示生成的故障诊断推荐信息的示意图;
图17为本申请实施例一种向用户展示生成的故障诊断推荐信息的示意图;
图18为本申请实施例一种故障检测整体流程图;
图19为本申请实施例提供一种故障检测设备的结构示意图;
图20为本申请实施例提供一种故障检测装置的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
下面对本申请中出现的一些术语进行解释:
1、本申请实施例中术语“网络拓扑”,(Network Topology)结构是指用传输介质互连各种设备的物理布局,指构成网络的成员间特定的物理的即真实的、或者逻辑的即虚拟的排列方式。
2、本申请实施例中术语“知识图谱”,(Knowledge Graph)在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
3、本申请实施例中术语“数据字典”,数据字典是指对数据的数据项、数据结构、数据流、数据存储、处理逻辑等进行定义和描述,其目的是对数据流程图中的各个元素做出详细的说明,使用数据字典为简单的建模项目。简而言之,数据字典是描述数据的信息集合,是对系统中使用的所有数据元素的定义的集合。
4、本申请实施例中术语“ID”,是设备的唯一标识,不可重复,表现形式可以是IP,也可以是对设备的某种唯一描述。
5、本申请实施例中术语“键值”,位于注册表结构链末端,和文件系统的文件类似,包含当前计算机及应用程序执行时使用的实际配置信息和数据,键值包含几种数据类型,以适应不同环境的使用需求。
6、本申请实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,B和/或B,可以表示:单独存在B,同时存在B和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本申请实施例描述的应用场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。其中,在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
设备和通信发生故障具有随机性、无规律性和不确定性,系统中包含的设备越来越繁多复杂,系统中通常有监控设备可以统揽系统全局设备状态,当其中任意一个设备出现故障时,监控设备显示故障告警,但是出现的故障告警可能是从该设备到监控设备任意一条数据链流程上任何一个通信链路出现故障导致的,且现有技术方案大多针对单一设备进行故障检测,技术人员排查故障等待时间较长,效率较低;因此如何及时对出现故障的设备以及系统进行全面故障检测,提升故障检测效率就显得很有必要。
为了解决上述问题,本申请提供一种故障检测方法,通过确定包含多个设备的待检测系统中发生故障告警的目标设备;获取目标设备的运行日志,以及从目标设备对应的故障信息知识图谱中获取目标设备对应的至少一个故障关键字;根据目标设备对应的故障关键字以及运行日志中的软件日志,对目标设备进行故障检测,确定目标设备是否发生故障;和/或,根据目标设备对应的故障关键字以及运行日志中的通信日志,对待检测系统中目标设备对应的上游通信链路进行故障检测,确定目标设备对应的上游通信链路是否出现故障。
如图1所示,是本申请实施例提供的一种可选的故障检测方法的应用场景示意图。例如,该应用场景可以为对乘客信息系统进行故障检测包括多个显示屏设备101、播控器设备102、服务器103、交换机104、监控设备105、故障检测设备106。
故障检测设备106包括但不限于各种台式计算机、笔记本电脑、平板电脑。服务器103可以是一台服务器、若干台服务器组成的服务器集群或云计算中心。服务器103可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
显示屏101与播控器102、服务器103、交换机104、监控设备105之间相互传递通信信息;终端设备105通过显示屏显示待检测系统中各个设备的状态信息以使用户查看待检测系统的各个设备的运行状态。当某个设备出现故障时,终端设备105显示故障告警,通过故障告警显示的设备ID确定目标设备,实施相应的故障检测。
监控设备105确定待检测系统中发生故障告警的目标设备;故障检测设备106获取目标设备的运行日志,以及从目标设备对应的故障信息知识图谱中获取目标设备对应的至少一个故障关键字;其中,故障信息知识图谱是在检测到目标设备发生故障后根据目标设备的历史故障数据生成的,且故障关键字用于表示目标设备发生故障后的故障类型;若根据目标设备对应的故障关键字,确定目标设备的运行日志中包含故障信息,则确定目标设备发生故障,并确定目标设备发生故障的故障类型。
需要说明的是,本申请实施例中故障检测的服务器设备可以是待检测系统中的某一个服务器或控制器,也可以是独立于待检测系统之外的设备。
如图2所示,本申请实施例提供的一种故障检测方法流程图,具体可以包括以下步骤:
步骤S201、确定包含多个设备的待检测系统中发生故障告警的目标设备;
步骤S202、获取目标设备的运行日志,以及从目标设备对应的故障信息知识图谱中获取目标设备对应的至少一个故障关键字;其中,故障信息知识图谱是在检测到目标设备发生故障后根据目标设备的历史故障数据生成的,且故障关键字用于表示目标设备发生故障后的故障类型;
步骤S203、根据目标设备对应的故障关键字以及运行日志中的软件日志,对目标设备进行故障检测;和/或,根据目标设备对应的故障关键字以及运行日志中的通信日志,对待检测系统中目标设备对应的上游通信链路进行故障检测;上游通信链路包括影响目标设备的运行状态的上游设备之间的通信链路和/或目标设备与上游设备之间的通信链路。
在步骤S201中,本申请实施例通过监控设备监测包含多个设备的待检测系统中的各个设备的运行状态;在监控设备监测到某个设备的运行状态异常时,确定该设备为发生故障告警的目标设备。在目标设备发生故障告警时,监控设备可以通过声光或文字等信息发出告警提示;例如,监控设备上的红色告警灯亮,或者蜂鸣器发出报警声,或者监控设备的显示界面中显示故障告警的告警信息,告警信息中包含出现故障设备的异常状态数据以及设备ID。例如,如图3所示的监控设备的显示界面,在该显示界面中可以向用户展示多个设备的运行状态,在目标设备发生故障告警时,在该显示界面中弹出提示信息,用于提示用户目标设备发生故障告警。
当监控设备检测到多个故障告警信息时,确定出现多个发生故障告警的目标设备;此时,用户可以查看监控设备在预设时长内接收到的告警记录;例如,用户可以点击显示界面中“告警记录”选项,进入到查看告警记录的界面,如图4所示,用户可以查看预设时长内发生故障告警的多个目标设备。
在确定包含多个设备的待检测系统中发生故障告警的目标设备之后,获取目标设备的运行日志,以及从目标设备对应的故障信息知识图谱中获取目标设备对应的至少一个故障关键字。本申请实施例在获取到目标设备对应的至少一个故障关键字之后,可以根据目标设备对应的至少一个故障关键字对待检测系统进行故障检测,确定导致目标设备发生故障告警的真实原因。
下面首先介绍下获取目标设备的运行日志和至少一个故障关键字的方式。
本申请实施例中,待检测系统的各个设备在运行中都会有日志的打印和输出,方便出现问题时进行故障调查;运行日志对应各个设备的设备ID存储在本地数据库的日志文件中,故障检测设备通过TCP(Transmission Control Protocol,传输控制协议)通信连接待检测系统,根据目标设备的ID从待检测系统存储的日志文件中获取目标设备的运行日志,加密传输目标设备的运行日志到故障检测设备,防止信息泄露;其中,目标设备的运行日志中包括目标设备的软件日志以及通信日志。
在获取目标设备的运行日志之后,进一步调用目标设备对应的故障信息知识图谱。
本申请实施例的故障信息知识图谱是预先生成的,在确定待检测系统中发生故障告警的目标设备之后,调用预先生成的故障信息知识图谱;
其中,故障信息知识图谱是根据设备的历史故障数据生成的;在系统中的每一个设备发生故障告警之后,通过进行故障针对确定出发生故障的设备以及故障类型之后,根据故障数据对故障信息知识图谱进行更新。
需要说明的是,本申请实施例的待检测系统中每一个设备对应于一个故障信息知识图谱。
如图5所示,本申请实施例提供的一种故障信息知识图谱的示意图。在故障信息知识图谱中包含:故障关键字字典、设备信息、设备更新、通信类型、设备故障频率、故障类型等信息;
另外,故障信息知识图谱中多种关系的边可以向外扩展设备厂家、设备故障频率、故障诊断推荐结果等信息,可以很好地展现设备的整体信息,若设备故障率过高、故障比较频繁,可以通过外延设备更新信息进行设备更换,也可以通过外延的设备维修提供参考进行设备维修。
其中,故障信息知识图谱中故障类型节点还可以外延该设备历史出现过的具体故障类型;如图6所示,设备对应的具体故障类型可以包括:排线故障、内部故障、硬件故障。
为了丰富故障信息知识图谱,并便于对设备发生故障后进行故障修复,故障信息知识图谱中针对每一种类型的故障还可以外延故障原因、故障发生频率、故障预防;例如,如图7所示的故障信息知识图谱。
在确定发生故障告警的目标设备之后,通过目标设备的设备ID,确定目标设备对应的故障信息知识图谱;在确定目标设备对应的故障信息知识图谱之后,从目标设备对应的故障信息知识图谱的故障关键字字典中获取目标设备对应的至少一个故障关键字。例如,如图8所示的故障关键字字典中包含的多个故障关键字。
需要说明的是,设备运行的正常流程和异常流程都会有日志的打印和输出,故障关键字是当设备在异常流程时保存的关键点信息;故障关键字与故障类型之间是一一对应的;默认录入的通用故障关键字统一配置在各个设备对应的故障信息知识图谱的故障关键字字典中;故障关键字具体的字段可以根据实际分析自定义添加;通过扩充故障关键字,可以增加故障检测过程中的分支处理,使得故障检测结果更加具体。如图9所示,本申请实施例提供一种故障关键字与故障类型之间的对应关系的示意图。
一、对目标设备进行故障检测
实施中,本申请实施例根据目标设备对应的故障关键字以及运行日志中的软件日志,对目标设备进行故障检测;
在获取目标设备的运行日志以及目标设备对应的至少一个故障关键字之后,根据目标设备对应的故障关键字,确定目标设备的运行日志中是否包含故障信息。
在步骤S203中,本申请实施例可以通过下列方式判断目标设备的运行日志中是否包含故障信息:
将目标设备的运行日志中的软件日志与目标设备对应至少一个故障关键字进行匹配;若软件日志包含故障关键字,则确定目标设备发生故障。
例如,目标设备的故障关键字为“MEM Hot assert,with MemHotState”,目标设备的运行日志中的软件日志包含该故障关键字,则确定该目标设备发生故障。
本申请实施例在根据目标设备对应的故障关键字确定目标设备发生故障之后,确定目标设备的软件日志中包含的故障关键字;根据目标设备的软件日志包含的故障关键字,以及故障关键字与故障类型之间的对应关系,确定目标设备发生故障的故障类型。
例如,目标设备的故障关键字为“MEM Hot assert,with MemHotState”,目标设备的软件日志中包含该故障关键字,则确定该目标设备发生故障;假设故障关键字与故障类型对应的关系如图9所示,则确定目标设备发生故障的故障类型是内存过热。
一种可选的实施方式中,故障类型可以对应建议解决方案,例如,确定目标设备发生故障的故障类型是内存过热,则建议解决方案可以是:检查环境温度是否过高,风扇散热是否正常。
一种可选的实施方式中,在根据目标设备对应的故障关键字,确定目标设备的运行日志中包含故障信息,确定目标设备发生故障;以及确定目标设备发生故障的故障类型之后,汇总当前已分析故障检测详细信息生成诊断报告,向用户展示生成的诊断报告;例如可以汇总目标设备、目标设备发生故障的故障类型以及建议解决方案这些信息,生成诊断报告。如图10所示,本申请实施例提供一种向用户展示生成的诊断报告的示意图。
二、对目标设备对应的上游通信链路进行故障检测
在获取目标设备的运行日志以及目标设备对应的至少一个故障关键字之后,根据目标设备对应的故障关键字以及运行日志中的通信日志,对待检测系统中目标设备对应的上游通信链路进行故障检测。
如图11所示,本申请实施例提供的一种针对目标设备的上游通信链路进行故障检测方法流程图,具体可以包括以下步骤:
步骤S1101、获取待检测系统对应的网络拓扑模型;
步骤S1102、根据获取到的网络拓扑模型,确定待检测系统中影响目标设备运行状态的上游设备集合;
步骤S1103、根据确定出的上游设备集合,确定目标设备对应的上游通信链路;
步骤S1104、根据目标设备对应的故障关键字以及运行日志中的通信日志,对待检测系统中目标设备对应的上游通信链路进行故障检测。
在步骤S1101中,本申请实施例中待检测系统的网络拓扑模型是根据待检测系统的现场设备的实际连接情况,加载待检测系统的本地数据库,获取待检测系统的系统中所有的设备信息;从任意一个设备所在的具体线路开始,汇总本线路中所有的设备站点,监控设备作为中心站点自成根节点,连接中心站点的其他设备作为其子节点,其他的设备根据设备实际连接情况,依次为所有设备配置父节点,使其成为子节点、子子节点或更深层次的子节点;其中,本地数据库是待检测系统中所必须的,用于组建整个系统中所有设备的数据库,包含待检测系统中的所有设备信息,包括线路信息、设备类型、设备ID等信息;如图12所示,本申请实施例提供的一种网络拓扑模型的节点示意图。
基于数据字典的方式给网络拓扑模型中的每个节点加以定义和说明,组建整个待检测系统的所有设备的网络拓扑模型,节点之间的关系主要是通信,不同的通信类型具体区分,设备内部通信,外部接口通信、网络通信等信息;其中,数据字典的键值是设备ID,值是连接该设备的所有父级设备ID。
需要说明的是,在待检测系统的所有设备的网络拓扑模型中,目标设备在通信流程中具有它的同级设备,同级设备是在通信流程中与目标设备在同一个通信级别的设备,一个设备可以有多个父级设备,一个设备也可以成为多个其他设备的父级设备;父级设备是通信流程上会影响到该设备状态传递的直接设备;目标设备所在的待检测系统的网络拓扑模型可以是基于简单数据库构建的网络拓扑模型、基于复杂数据库构建的网络拓扑模型、基于手动自定义创建的网络拓扑模型等;如图13所示,本申请实施例提供的一种目标设备、同级设备与其父级设备在网络拓扑模型中的示意图。
如图14所示,本申请实施例提供的一种网络拓扑模型的示意图;以图1所示的乘客信息系统为例,假设发生故障告警的目标设备为显示屏1;目标设备显示屏1在通信流程中的同级设备是显示屏2,目标设备显示屏1的父级设备是播控器1,播控器1的父级设备是交换机1以及服务器;在各个通信链路上同时标明不同的通信类型,设备内部通信以及网络通信。
在获取到网络拓扑模型之后,进一步确定待检测系统中影响目标设备运行状态的上游设备集合。
需要说明的是,本申请实施例中的影响目标设备的运行状态的上游设备集合,可以包括目标设备的父级设备、父级设备的父级设备等等。
在步骤S1102中,本申请实施例可以根据目标设备的ID和网络拓扑模型,查找影响该目标设备状态传递的所有父级设备ID,再逐一根据父级设备ID,查找所有影响该父级设备信息传递的父级设备ID,以此类推,直至顶级设备,确定待检测系统中影响目标设备运行状态的上游设备集合。
在获取到待检测系统中影响目标设备运行状态的上游设备集合之后,确定目标设备对应的上游通信链路,以及获取上游设备集合中的各个上游设备之间的通信日志。
在步骤S1103中,根据确定出的上游设备集合中目标设备的所有父级设备ID,确定影响目标设备的运行状态的上游设备之间的通信链路和/或目标设备与上游设备之间的通信链路,即目标设备与所有父级设备之间的通信链路,目标设备的父级设备与该父级设备的父级设备之间的通信链路等等。例如,如图14为例,假设目标设备为播控器2,则播控器2对应的通信链路包括:播控器2与服务器之间的通信链路、播控器2与交换机1之间的通信链路、服务器与交换机1之间的通信链路、交换机1与交换机2之间的通信链路、交换机2与监控设备之间的通信链路。
本申请实施例中,待检测系统的各个设备在运行中都会有日志的打印和输出,方便出现问题时进行故障调查;运行日志对应各个设备的设备ID存储在本地数据库的日志文件中,故障检测设备通过TCP通信连接待检测系统,根据目标设备的ID从待检测系统存储的日志文件中获取上游设备集合中的目标设备的上游设备与目标设备之间的通信日志,以及获取上游设备集合中的各个上游设备之间的通信日志,加密传输目标设备的运行日志到故障检测设备,防止信息泄露。
获取到上游设备集合中的目标设备的上游设备与目标设备之间的通信日志,以及获取上游设备集合中的各个上游设备之间的通信日志之后,根据故障关键字确定影响目标设备的运行状态的上游设备之间的通信链路是否为发生故障的故障通信链路。
在步骤S1104中,本申请实施例根据下列方式确定导致目标设备发生故障告警的故障通信链路:
1、根据目标设备对应的故障关键字,以及目标设备的通信日志中目标设备与上游设备之间的通信日志,对目标设备与上游设备之间的上游通信链路进行故障检测。
本申请实施例将目标设备与上游设备之间的通信日志与目标设备对应的至少一个故障关键字进行匹配;若目标设备与上游设备之间的通信日志中包含目标设备对应的故障关键字,则确定目标设备与上游设备之间的上游通信链路发生故障。
例如,待检测系统中发生故障告警的目标设备是显示屏,根据显示屏对应的故障关键字,确定目标设备的软件日志中未包含故障信息,则获取显示屏所在的待检测系统的网络拓扑模型;确定待检测系统中影响显示屏运行状态的上游设备集合包括:播控器、服务器、交换机等设备。其中,显示屏的父级设备是播控器,播控器的父级设备是服务器以及交换机。获取上游设备集合中的目标设备的父级设备与目标设备之间的通信日志,以及获取上游设备集合中的各个上游设备之间的通信日志;将获取到的通信日志与至少一个故障关键字进行匹配;若显示屏与父级设备播控器之间的通信日志中包含故障关键字,则确定显示屏与父级设备播控器之间的通信链路为发生故障的故障通信链路。
2、根据目标设备对应的故障关键字,以及上游设备集合中各个上游设备之间的通信日志,对上游设备之间的上游通信链路进行故障检测。
本申请实施例将上游设备集合中各个上游设备之间的通信日志与目标设备对应的至少一个故障关键字进行匹配;若上游设备集合中的两个上游设备之间的通信日志中包含故障关键字,则确定两个上游设备之间的上游通信链路发生故障。
例如,待检测系统中发生故障告警的目标设备是显示屏,根据显示屏对应的故障关键字,确定目标设备的软件日志中未包含故障信息,则获取显示屏所在的待检测系统的网络拓扑模型;确定待检测系统中影响显示屏运行状态的上游设备集合包括:播控器、服务器、交换机等设备。其中,显示屏的父级设备是播控器,播控器的父级设备是服务器以及交换机。获取上游设备集合中的目标设备的父级设备与目标设备之间的通信日志,以及获取上游设备集合中的各个上游设备之间的通信日志;将获取到的通信日志与至少一个故障关键字进行匹配;若显示屏与父级设备播控器之间的通信日志中包含故障关键字,则确定显示屏与父级设备播控器之间的通信链路为发生故障的故障通信链路;若显示屏与父级设备播控器之间的通信日志中不包含故障关键字,将获取到的播控器与父级设备服务器之间的通信日志与至少一个故障关键字进行匹配,若播控器与父级设备服务器之间的通信日志中包含故障关键字,则确定播控器与父级设备服务器之间的通信链路为发生故障的故障通信链路;若播控器与父级设备服务器之间的通信日志中不包含故障关键字,将获取到的播控器与父级设备交换机之间的通信日志与至少一个故障关键字进行匹配,若播控器与父级设备交换机之间的通信日志中包含故障关键字,则确定播控器与父级设备交换机之间的通信链路为发生故障的故障通信链路。
一种可选的实施方式中,在根据目标设备对应的故障关键字以及运行日志中的软件日志,对目标设备进行故障检测之后,若确定该目标设备发生故障,则可以确定导致目标设备发生故障告警的原因为目标设备发生故障。若确定该目标设备没有发生故障,则进一步根据目标设备对应的故障关键字以及运行日志中的通信日志,对待检测系统中目标设备对应的上游通信链路进行故障检测。
另外,故障发生具有随机性、无规律性和不确定性,当发生故障时,通常技术人员在故障检测时不能及时诊断分析,效率较低并且时间较长。
为了解决上述问题,本申请确定待检测系统中发生故障告警的目标设备之后,可以根据目标设备对应的故障知识图谱中包含的历史故障类型生成故障诊断推荐信息,将故障诊断推荐信息推荐给技术人员,便于技术人员根据故障诊断推荐信息及时诊断待检测系统,提高故障检测效率。
实施中,本申请实施例可以通过下列方式生成故障诊断推荐信息:
如图15所示,本申请实施例提供的一种生成故障诊断推荐信息的流程图,具体可以包括以下步骤:
步骤S1501、根据目标设备对应的故障知识图谱,确定目标设备对应的故障频率参数;
步骤S1502、若目标设备对应的故障频率参数大于阈值,则根据目标设备对应的故障知识图谱中包含的历史故障类型生成故障诊断推荐信息,并向用户展示生成的故障诊断推荐信息,以使用户根据故障诊断推荐信息进行故障诊断。
在步骤S1501中,本申请实施例根据目标设备对应的故障知识图谱,确定目标设备对应的故障频率参数;其中,故障频率参数包括:设备故障频率值、历史故障类型对应的频率值。
例如,历史故障类型对应的频率值包括:排线故障发生频率值、内部故障发生频率值、硬件故障发生频率值等其它故障原因频率值。
在根据目标设备对应的故障知识图谱,确定目标设备对应的故障频率参数之后,判断目标设备对应的故障频率参数是否大于阈值。
需要说明的是,若故障频率参数包括多种不同类型的频率值,则在多个频率值中有至少一个频率值大于阈值,则根据目标设备对应的故障知识图谱中包含的历史故障类型生成故障诊断推荐信息。
由于若目标设备对应的故障频率参数大于阈值,则说明该目标设备发生故障的频率较高,需要技术人员介入进行故障诊断。
在步骤S1502中,从目标设备对应的故障知识图谱中获取目标设备的至少一个历史故障类型,并从目标设备对应的故障知识图谱中获取每个历史故障类型对应的频率值之后,一种可选的实施方式为,将频率值最大的历史故障类型作为故障诊断推荐信息;另一种可选的实施方式为,根据每个历史故障类型对应的频率值,将至少一个历史故障类型进行排序,并生成包含至少一个历史故障类型的排序信息的故障诊断推荐信息,以使用户根据至少一个历史故障类型的排序信息依次对目标设备进行故障诊断。
本申请实施例的预设故障阈值可以为本领域技术人员预先设置的经验数值,并且该预设故障阈值可以根据具体的应用场景进行合理设置。
例如,目标设备是显示屏,从显示屏对应的故障知识图谱中获取显示屏的至少一个历史故障类型,包括:排线故障、硬件故障、内部故障;从显示屏对应的故障知识图谱中获取排线故障、硬件故障、内部故障对应的频率值,排线故障62%、硬件故障23%、内部故障40%;将排线故障、硬件故障、内部故障进行排序,排序后为排线故障62%、内部故障40%、硬件故障23%;故障阈值为60%,排线故障超过故障阈值,将排线故障作为故障诊断推荐信息,以使用户根据故障诊断推荐信息对目标设备进行故障诊断;如图16所示,本申请实施例提供的一种向用户展示生成的故障诊断推荐信息的示意图。
例如,目标设备是显示屏,从显示屏对应的故障知识图谱中获取显示屏的至少一个历史故障类型,包括:排线故障、硬件故障、内部故障;从显示屏对应的故障知识图谱中获取排线故障、硬件故障、内部故障对应的频率值,排线故障62%、硬件故障68%、内部故障65%;将排线故障、硬件故障、内部故障进行排序,排序后为硬件故障68%、内部故障65%、排线故障62%;故障阈值为60%,所有历史故障类型对应的频率值都超过故障阈值,生成包含硬件故障、内部故障、排线故障的排序信息的故障诊断推荐信息,以使用户根据故障诊断推荐信息对目标设备进行故障诊断;如图17所示,本申请实施例提供的一种向用户展示生成的故障诊断推荐信息的示意图。
如图18所示,本申请实施例一种故障检测整体流程图,具体可以包括如下步骤:
步骤S1801、确定包含多个设备的待检测系统中发生故障告警的目标设备;
步骤S1802、获取目标设备的运行日志,以及从目标设备对应的故障信息知识图谱中获取目标设备对应的至少一个故障关键字;
其中,故障信息知识图谱是在检测到目标设备发生故障后根据目标设备的历史故障数据生成的,且故障关键字用于表示目标设备发生故障后的故障类型;
步骤S1803、判断将目标设备的软件日志中是否包含故障关键字;若是,执行步骤S1804,若否,执行步骤S1806;
步骤S1804、确定目标设备发生故障;
步骤S1805、根据目标设备的软件日志中包含的故障关键字,以及故障关键字与故障类型之间的对应关系,确定目标设备发生故障的故障类型;
步骤S1806、获取待检测系统对应的网络拓扑模型;
步骤S1807、根据获取到的网络拓扑模型,确定待检测系统中影响目标设备运行状态的上游设备集合;
步骤S1808、根据确定出的上游设备集合,确定目标设备对应的上游通信链路;
步骤S1809、判断目标设备与上游设备之间的通信日志中是否包含目标设备对应的故障关键字;若是,执行步骤S1810,若否,执行步骤S1811;
步骤S1810、确定目标设备与上游设备之间的上游通信链路发生故障;
步骤S1811、将上游设备集合中各个上游设备之间的通信日志与目标设备对应的至少一个故障关键字进行匹配;
步骤S1812、若上游设备集合中的两个上游设备之间的通信日志中包含故障关键字,则确定两个上游设备之间的上游通信链路发生故障。
基于同一发明构思,在一些可能的实施方式中,本申请实施例还提供一种故障检测设备,可以至少包括至少一个处理器、以及至少一个存储器。其中,存储器存储有程序代码,当程序代码被处理器执行时,使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的故障检测方法中的步骤。
下面参照图19来描述根据本申请的这种实施方式的故障检测设备1900。图19的故障检测设备1900仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图19所示,故障检测设备1900以通用计算装置的形式表现。故障检测设备1900的组件可以包括但不限于:上述至少一个处理器1901、上述至少一个存储器1902、连接不同系统组件(包括存储器1902和处理器1901)的总线1903。
总线1903表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储器1902可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)1921或高速缓存存储器1922,还可以进一步包括只读存储器(ROM)1923。
存储器1902还可以包括具有一组(至少一个)程序模块1924的程序/实用工具1925,这样的程序模块1924包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
故障检测设备1900也可以与一个或多个外部设备1904(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与故障检测设备1900交互的设备通信,或与使得该故障检测设备1900能与一个或多个其它计算装置进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1905进行。并且,故障检测设备1900还可以通过网络适配器1906与一个或者多个网络(例如局域网(LAN),广域网(WAN)或公共网络,例如因特网)通信。如图19所示,网络适配器1906通过总线1903与用于故障检测设备1900的其它模块通信。应当理解,尽管图中未示出,可以结合故障检测设备1900使用其它硬件或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器1901具体用于执行下列过程:
确定包含多个设备的待检测系统中发生故障告警的目标设备;
获取所述目标设备的运行日志,以及从所述目标设备对应的故障信息知识图谱中获取所述目标设备对应的至少一个故障关键字;其中,所述故障信息知识图谱是在检测到所述目标设备发生故障后根据所述目标设备的历史故障数据生成的,且所述故障关键字用于表示所述目标设备发生故障后的故障类型;
根据所述目标设备对应的故障关键字以及所述运行日志中的软件日志,对所述目标设备进行故障检测;和/或,根据所述目标设备对应的故障关键字以及所述运行日志中的通信日志,对所述待检测系统中所述目标设备对应的上游通信链路进行故障检测;所述上游通信链路包括影响所述目标设备的运行状态的上游设备之间的通信链路和/或所述目标设备与所述上游设备之间的通信链路。
可选的,所述处理器1901具体用于:
将所述目标设备的运行日志中的软件日志与所述目标设备对应至少一个故障关键字进行匹配;
若软件日志包含故障关键字,则确定所述目标设备发生故障。
可选的,在所述确定所述目标设备发生故障之后,所述处理器1901还用于:
确定所述目标设备的软件日志中包含的故障关键字;
根据所述目标设备的软件日志包含的故障关键字,以及故障关键字与故障类型之间的对应关系,确定所述目标设备发生故障的故障类型。
可选的,在获取所述目标设备的运行日志,以及从所述目标设备对应的故障信息知识图谱中获取所述目标设备对应的至少一个故障关键字之后,在根据所述目标设备对应的故障关键字以及所述运行日志中的通信日志,对所述待检测系统中所述目标设备对应的上游通信链路进行故障检测之前,所述处理器1901还用于:
获取所述待检测系统对应的网络拓扑模型;
根据获取到的所述网络拓扑模型,确定所述待检测系统中影响所述目标设备运行状态的上游设备集合;
根据确定出的所述上游设备集合,确定所述目标设备对应的上游通信链路。
可选的,所述处理器1901具体用于:
根据所述目标设备对应的故障关键字,以及所述目标设备的通信日志中所述目标设备与上游设备之间的通信日志,对所述目标设备与所述上游设备之间的上游通信链路进行故障检测;和/或
根据所述目标设备对应的故障关键字,以及所述上游设备集合中各个上游设备之间的通信日志,对上游设备之间的上游通信链路进行故障检测。
可选的,所述处理器1901具体用于:
将所述目标设备与上游设备之间的通信日志与所述目标设备对应的至少一个故障关键字进行匹配;
若所述目标设备与上游设备之间的通信日志中包含所述目标设备对应的故障关键字,则确定所述目标设备与所述上游设备之间的上游通信链路发生故障。
可选的,所述处理器1901具体用于:
将所述上游设备集合中各个上游设备之间的通信日志与所述目标设备对应的至少一个故障关键字进行匹配;
若所述上游设备集合中的两个上游设备之间的通信日志中包含故障关键字,则确定所述两个上游设备之间的上游通信链路发生故障。
可选的,在所述确定包含多个设备的待检测系统中发生故障告警的目标设备之后,所述处理器1901还用于:
根据所述目标设备对应的故障知识图谱,确定所述目标设备对应的故障频率参数;
若所述目标设备对应的故障频率参数大于阈值,则根据所述目标设备对应的故障知识图谱中包含的历史故障类型生成故障诊断推荐信息,并向用户展示生成的所述故障诊断推荐信息,以使所述用户根据所述故障诊断推荐信息进行故障诊断。
可选的,所述处理器1901具体用于:
从所述目标设备对应的故障知识图谱中获取所述目标设备的至少一个历史故障类型,并从所述目标设备对应的故障知识图谱中获取每个历史故障类型对应的频率值;
根据每个历史故障类型对应的频率值,将频率值最大的历史故障类型作为故障诊断信息;或者,将所述至少一个历史故障类型进行排序,并生成包含所述至少一个历史故障类型的排序信息的故障诊断推荐信息,以使所述用户根据所述少一个历史故障类型的排序信息依次对所述目标设备进行故障诊断。
如图20所示,本申请实施例提供一种故障检测装置2000,包括:
确定模块2001,用于确定包含多个设备的待检测系统中发生故障告警的目标设备;
获取模块2002,用于获取所述目标设备的运行日志,以及从所述目标设备对应的故障信息知识图谱中获取所述目标设备对应的至少一个故障关键字;其中,所述故障信息知识图谱是在检测到所述目标设备发生故障后根据所述目标设备的历史故障数据生成的,且所述故障关键字用于表示所述目标设备发生故障后的故障类型;
检测模块2003,用于根据所述目标设备对应的故障关键字以及所述运行日志中的软件日志,对所述目标设备进行故障检测;和/或,根据所述目标设备对应的故障关键字以及所述运行日志中的通信日志,对所述待检测系统中所述目标设备对应的上游通信链路进行故障检测;所述上游通信链路包括影响所述目标设备的运行状态的上游设备之间的通信链路和/或所述目标设备与所述上游设备之间的通信链路。
可选的,所述检测模块2003具体用于:
将所述目标设备的运行日志中的软件日志与所述目标设备对应至少一个故障关键字进行匹配;
若软件日志包含故障关键字,则确定所述目标设备发生故障。
可选的,在所述确定所述目标设备发生故障之后,所述检测模块2003还用于:
确定所述目标设备的软件日志中包含的故障关键字;
根据所述目标设备的软件日志包含的故障关键字,以及故障关键字与故障类型之间的对应关系,确定所述目标设备发生故障的故障类型。
可选的,在获取所述目标设备的运行日志,以及从所述目标设备对应的故障信息知识图谱中获取所述目标设备对应的至少一个故障关键字之后,在根据所述目标设备对应的故障关键字以及所述运行日志中的通信日志,对所述待检测系统中所述目标设备对应的上游通信链路进行故障检测之前,所述获取模块2002还用于:
获取所述待检测系统对应的网络拓扑模型;
根据获取到的所述网络拓扑模型,确定所述待检测系统中影响所述目标设备运行状态的上游设备集合;
根据确定出的所述上游设备集合,确定所述目标设备对应的上游通信链路。
可选的,所述检测模块2003具体用于:
根据所述目标设备对应的故障关键字,以及所述目标设备的通信日志中所述目标设备与上游设备之间的通信日志,对所述目标设备与所述上游设备之间的上游通信链路进行故障检测;和/或
根据所述目标设备对应的故障关键字,以及所述上游设备集合中各个上游设备之间的通信日志,对上游设备之间的上游通信链路进行故障检测。
可选的,所述检测模块2003具体用于:
将所述目标设备与上游设备之间的通信日志与所述目标设备对应的至少一个故障关键字进行匹配;
若所述目标设备与上游设备之间的通信日志中包含所述目标设备对应的故障关键字,则确定所述目标设备与所述上游设备之间的上游通信链路发生故障。
可选的,所述检测模块2003还用于:
将所述上游设备集合中各个上游设备之间的通信日志与所述目标设备对应的至少一个故障关键字进行匹配;
若所述上游设备集合中的两个上游设备之间的通信日志中包含故障关键字,则确定所述两个上游设备之间的上游通信链路发生故障。
可选的,在所述确定包含多个设备的待检测系统中发生故障告警的目标设备之后,所述获取模块2002还用于:
根据所述目标设备对应的故障知识图谱,确定所述目标设备对应的故障频率参数;
所述检测模块2003还用于:
若所述目标设备对应的故障频率参数大于阈值,则根据所述目标设备对应的故障知识图谱中包含的历史故障类型生成故障诊断推荐信息,并向用户展示生成的所述故障诊断推荐信息,以使所述用户根据所述故障诊断推荐信息进行故障诊断。
可选的,所述获取模块2002具体用于:
从所述目标设备对应的故障知识图谱中获取所述目标设备的至少一个历史故障类型,并从所述目标设备对应的故障知识图谱中获取每个历史故障类型对应的频率值;
所述检测模块2003具体用于:
根据每个历史故障类型对应的频率值,将频率值最大的历史故障类型作为故障诊断信息;或者,将所述至少一个历史故障类型进行排序,并生成包含所述至少一个历史故障类型的排序信息的故障诊断推荐信息,以使所述用户根据所述少一个历史故障类型的排序信息依次对所述目标设备进行故障诊断。
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器,上述指令可由处理器执行以完成上述故障检测方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如本申请提供的故障检测方法的任一方法。
在示例性实施例中,本申请提供的一种故障检测方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算机设备上运行时,程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的故障检测方法中的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的用于故障检测方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在电子设备上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,程序设计语言包括面向对象的程序设计语言诸如Java、C++等,还包括常规的过程式程序设计语言诸如“如“语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务端上执行。在涉及远程电子设备的情形中,远程电子设备可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户电子设备,或者,可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。

Claims (10)

1.一种故障检测方法,其特征在于,所述方法包括:
确定包含多个设备的待检测系统中发生故障告警的目标设备;
获取所述目标设备的运行日志,以及从所述目标设备对应的故障信息知识图谱中获取所述目标设备对应的至少一个故障关键字;其中,所述故障信息知识图谱是在检测到所述目标设备发生故障后根据所述目标设备的历史故障数据生成的,且所述故障关键字用于表示所述目标设备发生故障后的故障类型;
根据所述目标设备对应的故障关键字以及所述运行日志中的软件日志,对所述目标设备进行故障检测;和/或,根据所述目标设备对应的故障关键字以及所述运行日志中的通信日志,对所述待检测系统中所述目标设备对应的上游通信链路进行故障检测;所述上游通信链路包括影响所述目标设备的运行状态的上游设备之间的通信链路和/或所述目标设备与所述上游设备之间的通信链路。
2.如权利要求1所述的方法,其特征在于,所述根据所述目标设备对应的故障关键字以及所述运行日志中的软件日志,对所述目标设备进行故障检测,具体包括:
将所述目标设备的运行日志中的软件日志与所述目标设备对应的至少一个故障关键字进行匹配;
若所述软件日志包含故障关键字,则确定所述目标设备发生故障。
3.如权利要求2所述的方法,其特征在于,在所述确定所述目标设备发生故障之后,所述方法还包括:
确定所述目标设备的软件日志中包含的故障关键字;
根据所述目标设备的软件日志包含的故障关键字,以及故障关键字与故障类型之间的对应关系,确定所述目标设备发生故障的故障类型。
4.如权利要求1所述的方法,其特征在于,在获取所述目标设备的运行日志,以及从所述目标设备对应的故障信息知识图谱中获取所述目标设备对应的至少一个故障关键字之后,在根据所述目标设备对应的故障关键字以及所述运行日志中的通信日志,对所述待检测系统中所述目标设备对应的上游通信链路进行故障检测之前,所述方法还包括:
获取所述待检测系统对应的网络拓扑模型;
根据获取到的所述网络拓扑模型,确定所述待检测系统中影响所述目标设备运行状态的上游设备集合;
根据确定出的所述上游设备集合,确定所述目标设备对应的上游通信链路。
5.如权利要求4所述的方法,其特征在于,所述根据所述目标设备对应的故障关键字以及所述运行日志中的通信日志,对所述待检测系统中所述目标设备对应的上游通信链路进行故障检测,具体包括:
根据所述目标设备对应的故障关键字,以及所述目标设备的通信日志中所述目标设备与上游设备之间的通信日志,对所述目标设备与所述上游设备之间的上游通信链路进行故障检测;和/或
根据所述目标设备对应的故障关键字,以及所述上游设备集合中各个上游设备之间的通信日志,对上游设备之间的上游通信链路进行故障检测。
6.如权利要求5所述的方法,其特征在于,所述根据所述目标设备对应的故障关键字,以及所述目标设备的通信日志中所述目标设备与上游设备之间的通信日志,对所述目标设备与所述上游设备之间的上游通信链路进行故障检测,具体包括:
将所述目标设备与上游设备之间的通信日志与所述目标设备对应的至少一个故障关键字进行匹配;
若所述目标设备与上游设备之间的通信日志中包含所述目标设备对应的故障关键字,则确定所述目标设备与所述上游设备之间的上游通信链路发生故障。
7.如权利要求5所述的方法,其特征在于,所述根据所述目标设备对应的故障关键字,以及所述上游设备集合中各个上游设备之间的通信日志,对上游设备之间的上游通信链路进行故障检测,具体包括:
将所述上游设备集合中各个上游设备之间的通信日志与所述目标设备对应的至少一个故障关键字进行匹配;
若所述上游设备集合中的两个上游设备之间的通信日志中包含故障关键字,则确定所述两个上游设备之间的上游通信链路发生故障。
8.如权利要求1~7任一项所述的方法,其特征在于,在所述确定包含多个设备的待检测系统中发生故障告警的目标设备之后,该方法还包括:
根据所述目标设备对应的故障知识图谱,确定所述目标设备对应的故障频率参数;
若所述目标设备对应的故障频率参数大于阈值,则根据所述目标设备对应的故障知识图谱中包含的历史故障类型生成故障诊断推荐信息,并向用户展示生成的所述故障诊断推荐信息,以使所述用户根据所述故障诊断推荐信息进行故障诊断。
9.如权利要求8所述的方法,其特征在于,所述根据所述目标设备对应的故障知识图谱中包含的历史故障类型生成故障诊断推荐信息,具体包括:
从所述目标设备对应的故障知识图谱中获取所述目标设备的至少一个历史故障类型,并从所述目标设备对应的故障知识图谱中获取每个历史故障类型对应的频率值;
根据每个历史故障类型对应的频率值,将频率值最大的历史故障类型作为故障诊断信息;或者,将所述至少一个历史故障类型进行排序,并生成包含所述至少一个历史故障类型的排序信息的故障诊断推荐信息,以使所述用户根据所述少一个历史故障类型的排序信息依次对所述目标设备进行故障诊断。
10.一种故障检测设备,其特征在于,该设备包括至少一个处理器、以及至少一个存储器;其中,存储器存储有程序代码,当程序代码被处理器执行时,使得处理器执行下列过程:
确定包含多个设备的待检测系统中发生故障告警的目标设备;
获取所述目标设备的运行日志,以及从所述目标设备对应的故障信息知识图谱中获取所述目标设备对应的至少一个故障关键字;其中,所述故障信息知识图谱是在检测到所述目标设备发生故障后根据所述目标设备的历史故障数据生成的,且所述故障关键字用于表示所述目标设备发生故障后的故障类型;
根据所述目标设备对应的故障关键字以及所述运行日志中的软件日志,对所述目标设备进行故障检测;和/或,根据所述目标设备对应的故障关键字以及所述运行日志中的通信日志,对所述待检测系统中所述目标设备对应的上游通信链路进行故障检测;所述上游通信链路包括影响所述目标设备的运行状态的上游设备之间的通信链路和/或所述目标设备与所述上游设备之间的通信链路。
CN202210555479.XA 2022-05-20 2022-05-20 一种故障检测方法及设备 Active CN115037597B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210555479.XA CN115037597B (zh) 2022-05-20 2022-05-20 一种故障检测方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210555479.XA CN115037597B (zh) 2022-05-20 2022-05-20 一种故障检测方法及设备

Publications (2)

Publication Number Publication Date
CN115037597A true CN115037597A (zh) 2022-09-09
CN115037597B CN115037597B (zh) 2024-03-29

Family

ID=83121632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210555479.XA Active CN115037597B (zh) 2022-05-20 2022-05-20 一种故障检测方法及设备

Country Status (1)

Country Link
CN (1) CN115037597B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115509797A (zh) * 2022-11-22 2022-12-23 北京优特捷信息技术有限公司 一种故障类别的确定方法、装置、设备及介质
CN116909838A (zh) * 2023-06-21 2023-10-20 深圳腾信百纳科技有限公司 一种异常日志上报方法、系统、终端设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740121A (zh) * 2016-01-26 2016-07-06 中国银行股份有限公司 一种日志文本监控与预警方法、装置
CN107341068A (zh) * 2017-06-28 2017-11-10 北京优特捷信息技术有限公司 通过自然语言处理进行运维排障的方法和装置
CN112291085A (zh) * 2020-10-10 2021-01-29 北京金山云网络技术有限公司 一种故障定位方法、装置、设备及介质
CN113791928A (zh) * 2021-09-22 2021-12-14 中国建设银行股份有限公司 一种端口故障处置方法、系统、存储介质和电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740121A (zh) * 2016-01-26 2016-07-06 中国银行股份有限公司 一种日志文本监控与预警方法、装置
CN107341068A (zh) * 2017-06-28 2017-11-10 北京优特捷信息技术有限公司 通过自然语言处理进行运维排障的方法和装置
CN112291085A (zh) * 2020-10-10 2021-01-29 北京金山云网络技术有限公司 一种故障定位方法、装置、设备及介质
CN113791928A (zh) * 2021-09-22 2021-12-14 中国建设银行股份有限公司 一种端口故障处置方法、系统、存储介质和电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115509797A (zh) * 2022-11-22 2022-12-23 北京优特捷信息技术有限公司 一种故障类别的确定方法、装置、设备及介质
CN116909838A (zh) * 2023-06-21 2023-10-20 深圳腾信百纳科技有限公司 一种异常日志上报方法、系统、终端设备及存储介质

Also Published As

Publication number Publication date
CN115037597B (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
US10860406B2 (en) Information processing device and monitoring method
US8656219B2 (en) System and method for determination of the root cause of an overall failure of a business application service
WO2021147832A1 (zh) 数据处理方法、装置、数据库系统、电子设备及存储介质
CN115037597A (zh) 一种故障检测方法及设备
CN104796273A (zh) 一种网络故障根源诊断的方法和装置
US10129373B2 (en) Recovery of a network infrastructure to facilitate business continuity
CN113268399B (zh) 一种告警处理方法、装置和电子设备
US20190121969A1 (en) Graph Model for Alert Interpretation in Enterprise Security System
JP6280862B2 (ja) イベント分析システムおよび方法
CN112559237B (zh) 运维系统排障方法、装置、服务器和存储介质
CN111913824B (zh) 确定数据链路故障原因的方法及相关设备
CN113342889A (zh) 分布式数据库的管理方法、装置、设备和介质
CN110245052B (zh) 一种数据系统的热点组件确定方法、装置、电子设备及存储介质
CN117041029A (zh) 网络设备故障处理方法、装置、电子设备及存储介质
CN114443437A (zh) 告警根因输出方法、装置、设备、介质和程序产品
CN114172785A (zh) 告警信息处理方法、装置、设备和存储介质
Chen et al. Automatic root cause analysis via large language models for cloud incidents
CN114756301A (zh) 日志处理方法、装置和系统
US10909242B2 (en) System and method for detecting security risks in a computer system
CN113626288A (zh) 故障处理方法、系统、装置、存储介质和电子设备
CN115544202A (zh) 告警处理方法、装置及存储介质
Kuang et al. Knowledge-aware Alert Aggregation in Large-scale Cloud Systems: a Hybrid Approach
CN112559238B (zh) 用于Oracle数据库的排障策略生成方法装置、处理器和存储介质
CN112433915B (zh) 一种基于分布式性能监控工具的数据监控方法及相关装置
Ramakrishna et al. A platform for end-to-end mobile application infrastructure analytics using system log correlation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant