CN115225460B - 故障判定方法、电子设备和存储介质 - Google Patents

故障判定方法、电子设备和存储介质 Download PDF

Info

Publication number
CN115225460B
CN115225460B CN202210836940.9A CN202210836940A CN115225460B CN 115225460 B CN115225460 B CN 115225460B CN 202210836940 A CN202210836940 A CN 202210836940A CN 115225460 B CN115225460 B CN 115225460B
Authority
CN
China
Prior art keywords
fault
target
equipment
log information
target monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210836940.9A
Other languages
English (en)
Other versions
CN115225460A (zh
Inventor
赵龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Original Assignee
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Topsec Technology Co Ltd, Beijing Topsec Network Security Technology Co Ltd, Beijing Topsec Software Co Ltd filed Critical Beijing Topsec Technology Co Ltd
Priority to CN202210836940.9A priority Critical patent/CN115225460B/zh
Publication of CN115225460A publication Critical patent/CN115225460A/zh
Application granted granted Critical
Publication of CN115225460B publication Critical patent/CN115225460B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供一种故障判定方法、电子设备和存储介质,该方法首先基于目标监测设备的当前运行日志判定目标监测设备的当前故障类型,然后基于目标监测设备的当前故障类型在预先训练完成的多种故障判定模型中查找目标故障判定模型,然后基于查找到的目标故障判定模型和目标监测设备的目标关联设备的当前运行日志判定目标关联设备是否故障。由此,本方案不仅对于出现故障的目标监测设备的故障类型进行判别,还基于神经网络模型对目标监测设备关联的设备进行快速故障判定,不仅保证个体设备的故障识别同时还基于故障相关性对相关设备的故障分析和识别,进而对整个系统的故障进行预判和告警,从而提高故障判别的准确性和全面性。

Description

故障判定方法、电子设备和存储介质
技术领域
本申请涉及设备异常诊断领域,具体而言,涉及一种故障判定方法、电子设备和存储介质。
背景技术
随着互联网的发展,网络数据以及设备呈现爆炸式增长的态势。由于互联网内容的大规模、异质多元、组织结构松散的特点,给有效管理和发现异常设备的状况提出高技术要求,设备异常诊断和关联识别成为解决该类问题的关键。
目前,针对大网多源异构设备故障,例如受到网络攻击或读写异常等等,现有方式是通过人工确认排查,但人工排查方式存在耗时耗力以及影响现有的业务和使用的问题。
发明内容
本申请实施例的目的在于提供一种故障判定方法、电子设备和存储介质,用以解决目前大网多源异构设备故障人工排查存在的耗时耗力以及影响现有业务和使用的问题。
第一方面,本发明提供一种故障判定方法,该方法包括:根据目标监测设备的当前运行日志信息确定目标监测设备的当前故障类别;根据当前故障类别查找对应的目标故障判定模型;其中,预设有多种故障判定模型,不同的故障判定类别对应的故障判定模型不同;获取目标监测设备的至少一个目标关联设备的当前运行日志信息;根据每个目标关联设备的当前运行日志信息和目标故障判定模型,判定每个目标关联设备是否故障。
上述设计的故障判定方法,本方案首先基于目标监测设备的当前运行日志判定目标监测设备的当前故障类型,然后基于目标监测设备的当前故障类型在预先训练完成的多种故障判定模型中查找目标故障判定模型,然后基于查找到的目标故障判定模型和目标监测设备的目标关联设备的当前运行日志判定目标关联设备是否故障,由此,本方案不仅对于出现故障的目标监测设备的故障类型进行判别,还基于神经网络模型对目标监测设备关联的设备进行快速故障判定,不仅保证个体设备的故障识别同时还基于故障相关性对相关设备的故障分析和识别,进而对整个系统的故障进行预判和告警,从而提高故障判别的准确性和全面性。
在第一方面的可选实施方式中,其中,目标关联设备包括与目标监测设备类型相同并且与目标监测设备相关联的设备;根据每个目标关联设备的当前运行日志信息和目标故障判定模型判定每个目标关联设备是否故障,包括:根据每个目标关联设备的当前运行日志信息和目标故障判定模型判定每个目标关联设备是否出现与目标监测设备相同类别的故障。
在第一方面的可选实施方式中,在根据目标监测设备的当前运行日志信息确定目标监测设备的当前故障类别之前,该方法还包括:获取目标监测设备的历史运行日志信息,该历史运行日志信息包括每个类别对应的没有发生故障的历史运行日志信息以及发生故障的历史运行日志信息;根据目标监测设备的每个类别对应的没有发生故障的历史运行日志信息、发生故障的历史运行日志信息以及对应类别故障结果对一预设网络模型进行训练,获得所述多个故障判定模型。
在第一方面的可选实施方式中,获取目标监测设备发生多种类型故障下每种类型故障的历史运行日志信息,包括:通过多线程并发采集目标监测设备的历史运行日志信息;其中,每个线程以一种故障类别对应的关键词作为采集参数,不同的线程对应的故障类别关键词不同。
在第一方面的可选实施方式中,其中,目标关联设备包括与目标监测设备关联的每一设备;根据每个目标关联设备的当前运行日志信息和目标故障判定模型判定每个目标关联设备是否故障,包括:将每个目标关联设备的当前运行日志信息输入目标故障判定模型中,获得目标故障判定模型输出的每个目标关联设备的故障类型以及对应的故障概率;根据每个目标关联设备的故障概率确定对应的目标关联设备是否故障。
在第一方面的可选实施方式中,根据每个目标关联设备的故障概率确定对应的目标关联设备是否故障,包括:根据每个目标关联设备的故障类型查找对应关联设备的故障类型对应的预设故障阈值;判断目标关联设备每种故障类型对应的故障概率是否超过对应的预设故障阈值;若是,则确定目标关联设备出现故障概率超过对应预设故障阈值的故障类型对应的故障。
在第一方面的可选实施方式中,在根据目标监测设备的当前运行日志信息确定目标监测设备的当前故障类别之前,该方法还包括:通过多线程并发采集每个目标关联设备的多个类别历史数据;其中,每个类别历史数据包括目标监测设备出现该故障类别情况下的目标关联设备的历史运行日志信息以及目标监测设备没有出现该故障类别情况下的目标关联设备的历史运行日志信息;每个线程以一种故障类别对应的关键词作为采集参数,不同的线程对应的故障类别关键词不同;分别利用每个目标关联设备的每个类别历史数据和每个类别历史数据对应的故障结果对一预设模型进行训练,获得多个故障判定模型。
在第一方面的可选实施方式中,在根据目标监测设备的当前运行日志信息确定目标监测设备的当前故障类别之前,该方法还包括:向目标监测设备发送网络状态识别信息;判断是否接收目标监测设备返回的网络状态信息;若是,则执行根据目标监测设备的当前运行日志信息确定目标监测设备的当前故障类别的步骤;若否,则向目标监测设备对应的检修机构发送网络故障告警。
第二方面,本申请提供一种故障判定装置,该装置包括:确定模块,用于根据目标监测设备的当前运行日志信息确定目标监测设备的当前故障类别;查找模块,用于根据当前故障类别查找对应的目标故障判定模型;其中,预设有多种故障判定模型,不同的故障判定类别对应的故障判定模型不同;获取模块,用于获取目标监测设备的至少一个目标关联设备的当前运行日志信息;判定模块,用于根据每个目标关联设备的当前运行日志信息和目标故障判定模型,判定每个目标关联设备是否故障。
上述设计的故障判定装置,本方案首先基于目标监测设备的当前运行日志判定目标监测设备的当前故障类型,然后基于目标监测设备的当前故障类型在预先训练完成的多种故障判定模型中查找目标故障判定模型,然后基于查找到的目标故障判定模型和目标监测设备的目标关联设备的当前运行日志判定目标关联设备是否故障,由此,本方案不仅对于出现故障的目标监测设备的故障类型进行判别,还基于神经网络模型对目标监测设备关联的设备进行快速故障判定,不仅保证个体设备的故障识别同时还基于故障相关性对相关设备的故障分析和识别,进而对整个系统的故障进行预判和告警,从而提高故障判别的准确性和全面性。
在第二方面的可选实施方式中,目标关联设备包括与目标监测设备类型相同并且与目标监测设备相关联的设备;该判定模块,具体用于根据每个目标关联设备的当前运行日志信息和目标故障判定模型判定每个目标关联设备是否出现与目标监测设备相同类别的故障。
在第二方面的可选实施方式中,该获取模块,还用于获取目标监测设备的历史运行日志信息,该历史运行日志信息包括每个类别对应的没有发生故障的历史运行日志信息以及发生故障的历史运行日志信息;训练模块,用于根据目标监测设备的每个类别对应的没有发生故障的历史运行日志信息、发生故障的历史运行日志信息以及对应类别故障结果对一预设网络模型进行训练,获得所述多个故障判定模型。
在第二方面的可选实施方式中,该获取模块,具体用于通过多线程并发采集目标监测设备的历史运行日志信息;其中,每个线程以一种故障类别对应的关键词作为采集参数,不同的线程对应的故障类别关键词不同。
在第二方面的可选实施方式中,其中,目标关联设备包括与目标监测设备关联的每一设备;该判定模块,还具体用于将每个目标关联设备的当前运行日志信息输入目标故障判定模型中,获得目标故障判定模型输出的每个目标关联设备的故障类型以及对应的故障概率;根据每个目标关联设备的故障概率确定对应的目标关联设备是否故障。
在第二方面的可选实施方式中,该判定模块,还具体用于根据每个目标关联设备的故障类型查找对应关联设备的故障类型对应的预设故障阈值;判断目标关联设备每种故障类型对应的故障概率是否超过对应的预设故障阈值;若是,则确定目标关联设备出现故障概率超过对应预设故障阈值的故障类型对应的故障。
在第二方面的可选实施方式中,采集模块,用于通过多线程并发采集每个目标关联设备的多个类别历史数据;其中,每个类别历史数据包括目标监测设备出现该故障类别情况下的目标关联设备的历史运行日志信息以及目标监测设备没有出现该故障类别情况下的目标关联设备的历史运行日志信息;每个线程以一种故障类别对应的关键词作为采集参数,不同的线程对应的故障类别关键词不同;该训练模块,还用于分别利用每个目标关联设备的每个类别历史数据和每个类别历史数据对应的故障结果对一预设模型进行训练,获得多个故障判定模型。
在第二方面的可选实施方式中,该装置还包括发送模块,用于向目标监测设备发送网络状态识别信息;判断模块,用于判断是否接收目标监测设备返回的网络状态信息;执行模块,用于在判断模块判断接收到目标监测设备返回的网络状态信息之后,执行根据目标监测设备的当前运行日志信息确定目标监测设备的当前故障类别的步骤;该发送模块,还用于在判断模块判断没有接收到目标监测设备返回的网络状态信息之后,向目标监测设备对应的检修机构发送网络故障告警。
第三方面,本申请提供一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时执行第一方面、第一方面中任一可选的实现方式中的所述方法。
第四方面,本申请提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时执行第一方面、第一方面中任一可选的实现方式中的所述方法。
第五方面,本申请提供了一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行第一方面、第一方面中任一可选的实现方式中的所述方法。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的故障判定方法的第一流程图;
图2为本申请实施例提供的故障判定方法的第二流程图;
图3为本申请实施例提供的故障判定方法的第三流程图;
图4为本申请实施例提供的故障判定方法的第四流程图;
图5为本申请实施例提供的故障判定方法的第五流程图;
图6为本申请实施例提供的故障判定方法的第六流程图;
图7为本申请实施例提供的故障判定装置的结构示意图;
图8为本申请实施例提供的电子设备的结构示意图。
图标:700-确定模块;710-查找模块;720-获取模块;730-判定模块;740-训练模块;750-采集模块;760-发送模块;770-判断模块;780-执行模块;8-电子设备;801-处理器;802-存储器;803-通信总线。
具体实施方式
下面将结合附图对本申请技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本申请的技术方案,因此只作为示例,而不能以此来限制本申请的保护范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。
在本申请实施例的描述中,技术术语“第一”“第二”等仅用于区别不同对象,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量、特定顺序或主次关系。在本申请实施例的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
在本申请实施例的描述中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
在本申请实施例的描述中,术语“多个”指的是两个以上(包括两个),同理,“多组”指的是两组以上(包括两组),“多片”指的是两片以上(包括两片)。
在本申请实施例的描述中,技术术语“中心”“纵向”“横向”“长度”“宽度”“厚度”“上”“下”“前”“后”“左”“右”“竖直”“水平”“顶”“底”“内”“外”“顺时针”“逆时针”“轴向”“径向”“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请实施例和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请实施例的限制。
在本申请实施例的描述中,除非另有明确的规定和限定,技术术语“安装”“相连”“连接”“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;也可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请实施例中的具体含义。
随着互联网的发展,网络数据以及设备呈现爆炸式增长的态势。由于互联网内容的大规模、异质多元、组织结构松散的特点,给有效管理和发现异常设备的状况提出高技术要求。
本发明人发现,目前对于大网多源异构设备故障,例如受到网络攻击、读写异常等等,现有的方式是人工手动确认排查,具体例如涉及到具体的硬件设备,大多是通过日志或手动监测硬件设备实现,但这样的方式工作人员需要一条条翻看日志数据,存在分析慢、排查效率低的问题,并且容易存在漏检。另外,人工排查方式只能对故障设备进行排查和定位,从某种程度上割裂了数据关系以及业务系统的完整性,使得故障原因或溯源不准确。
针对上述问题,本发明人设计一种故障判定方法、电子设备和存储介质,能够根据业务或数据关系进行综合分析和整理,从而基于故障设备和其关联设备的数据关系从而对关联设备是否故障进行判定和预警,从而实现更精确的故障判定和故障溯源预警功能,提高多源异构设备的安全性。
对此,本申请提供一种故障判定方法,该故障判定方法可应用于“专网|局域网|涉密网络”中的安全设备/系统异常问题的诊断和排查的实际场景中,该故障判定方法可设置于计算设备中,该计算设备包括但不限于计算机、服务器、安全监测系统等等,如图1所示,该故障判定方法可通过如下方式实现,包括:
步骤S100:根据目标监测设备的当前运行日志信息确定目标监测设备的当前故障类别。
步骤S110:根据当前故障类别查找对应的目标故障判定模型。
步骤S120:获取目标监测设备的至少一个目标关联设备的当前运行日志信息。
步骤S130:根据每个目标关联设备的当前运行日志信息和目标故障判定模型,判定每个目标关联设备是否故障。
在上述实施方式中,目标监测设备表示当前出现故障的设备,例如,出现故障的数据库服务器、出现故障的代理服务器等等;在此基础上,本方案可获取目标监测设备的当前运行日志信息,然后基于当前运行日志信息来确定目标监测设备的当前故障类别,其中,当前运行日志信息表示该目标监测设备当前运行情况下的运行日志数据。例如,本方案获得出现故障的数据库服务器的当前运行日志信息,发现出现故障的数据库服务器的硬盘数据已经达到上限值,并且从而使得该数据库服务器存在存储或读写异常;再例如,基于出现故障的数据库服务器的当前运行日志信息,发现出现故障的数据库服务器的运行日志中不断地出现读写数据,说明该数据库服务器在被外部入侵。
具体地,本方案可基于多种故障关键字在目标监测设备的当前运行日志信息中进行查找,若查找到相关关键字,则说明该目标监测设备出现对应的故障问题。例如,前述的硬盘数据达到上限值,则可基于“硬盘负载上限”或“硬盘负载警告”等关键字在目标监测设备的当前运行日志信息中进行查找,若查找到,则说明该目标监测设备出现硬盘负载上限的故障问题。
在上述基础上,本方案基于目标监测设备的当前故障类别查找对应的目标故障判定模型,其中,预先设置有多种故障判定模型,不同的故障类别对应的故障判定模型不同,多种故障判定模型可基于目标监测设备在出现不同类别故障情况下获得的数据源对对应的网络模型训练获得,例如,可将目标监测设备出现硬盘负载上限故障情况下获得的目标监测设备的历史运行日志数据作为数据源;也可将目标监测设备出现系统崩溃情况下获得的目标监测设备的历史运行日志数据作为数据源;也可将目标监测设备出现系统故障情况下,目标监测设备的关联设备的历史运行日志数据作为数据源。
作为一种具体的实施方式,本方案可利用每种故障类型对应的类型关键字与哈希算法生成对应故障类型的唯一标识符,然后将每个故障类型的唯一标识符与对应的故障判定模型进行关联。在此基础上,在获得目标监测设备的当前故障类型后,可基于当前故障类型查找对应的唯一标识符,然后基于查找到的唯一标识符再查找关联的故障判定模型,从而获得目标故障判定模型。
在前述基础上,目标监测设备出现故障很可能影响其关联设备同样出现故障或目标监测设备的故障很可能由其关联设备故障所引起,因此,本方案需要对目标监测设备的关联设备进行故障判定,从而对故障进行溯源或排除故障所带来的影响,在此基础上,本方案可获取与目标监测设备关联的至少一个目标关联设备的当前运行日志信息,其中,该目标关联设备可以是与目标监测设备关联并且与目标监测设备相同类型的设备,例如,目标监测设备为数据库服务器A,那么目标关联设备可以是与数据库服务器A关联的数据库服务器B。该目标关联设备也可以是与目标监测设备关联的所有设备,例如,目标监测设备为数据库服务器A,与该目标监测设备关联有数据库服务器B以及外部操作服务器C,那么数据库服务器B以及外部操作服务器C即均为目标关联设备。
在获得目标关联设备的当前运行日志信息基础上,本方案可基于目标关联设备的当前运行日志信息和查找获得的目标故障判定模型确定该目标关联设备是否出现故障。
上述设计的故障判定方法,本方案首先基于目标监测设备的当前运行日志判定目标监测设备的当前故障类型,然后基于目标监测设备的当前故障类型在预先训练完成的多种故障判定模型中查找目标故障判定模型,然后基于查找到的目标故障判定模型和目标监测设备的目标关联设备的当前运行日志判定目标关联设备是否故障,由此,本方案不仅对于出现故障的目标监测设备的故障类型进行判别,还基于神经网络模型对目标监测设备关联的设备进行快速故障判定,不仅保证个体设备的故障识别同时还基于故障相关性对相关设备的故障分析和识别,进而对整个系统的故障进行预判和告警,从而提高故障判别的准确性和全面性。
作为一种可能的实施方式,前述的多个故障判定模型可用于对目标监测设备关联的相似或相同设备进行故障判定检测,在此基础上,该多个故障判定模型可通过如下方式训练获得,如图2所示,包括:
步骤S200:获取目标监测设备的历史运行日志信息,该历史运行日志信息包括每个类别对应的没有发生故障的历史运行日志信息以及发生故障的历史运行日志信息。
步骤S210:根据目标监测设备的每个类别对应的没有发生故障的历史运行日志信息、发生故障的历史运行日志信息以及对应类别故障结果对一预设网络模型进行训练,获得多个故障判定模型。
在上述实施方式中,本方案可通过多线程并发采集目标监测设备的历史运行日志信息,其中,每个线程以一种故障类别对应的关键词作为采集参数,不同的线程对应的故障类别关键词不同。
例如,本方案可基于关键字“硬盘负载上限”、“系统故障”、“读取异常”等关键词多线程的在目标监测设备的历史运行日志数据中进行采集,从而获得目标监测设备出现“硬盘负载上限”、“系统故障”、“读取异常”故障的历史运行日志数据,然后在获取其没有出现故障时的历史运行日志数据,即可得到训练模型的数据源,然后将数据源以及每个数据源对应的故障结果作为样本数据对预设神经网络模型进行训练,通过损失函数、反向传播算法以及优化算法对神经网络模型的参数进行更新迭代,当神经网络模型的各个参数收敛或达到预设迭代次数时,则获得对应的故障判定模型。
在上述训练获得的多种故障判定模型基础上,本方案设计的多种故障判定模型可对目标监测设备关联的相同类型的设备进行故障判定,具体地,对于步骤S130,可如图3所示,包括:
步骤S300:根据每个目标关联设备的当前运行日志信息和目标故障判定模型判定每个目标关联设备是否出现与目标监测设备相同类别的故障。
在上述实施方式中,由于目标关联设备是与目标监测设备关联并且类型相同或相似的设备,因此,当目标监测设备出现该类型的故障时,相同或相似的目标关联设备极有可能也出现该类型的故障。由此,本方案可将每个目标关联设备的当前运行日志信息输入基于该故障类别查找的目标故障判定模型中,即可通过该目标故障判定模型快速识别每个目标关联设备是否出现与目标监测设备相同类别的故障,进而完成目标关联设备的故障判定。
作为另一种可能的实施方式,前述的多个故障判定模型还可用于对目标监测设备关联的所有设备进行故障判定,在此基础上,多个故障判定模型可通过如下方式训练获得,如图4所示,包括:
步骤S400:通过多线程并发采集每个目标关联设备的多个类别历史数据。
步骤S410:分别利用每个目标关联设备的每个类别历史数据和每个类别历史数据对应的故障结果对一预设模型进行训练,获得多个故障判定模型。
在上述实施方式中,每个类别历史数据包括目标监测设备出现该故障类别情况下的目标关联设备的历史运行日志信息以及目标监测设备没有出现该故障类别情况下的目标关联设备的历史运行日志信息。例如,依照前述举例,数据库服务器A在历史出现硬盘负载上限情况下,数据库服务器B以及外部操作服务器C的历史运行日志信息,以及数据库服务器A在历史没有出现硬盘负载上限情况下,数据库服务器B以及外部操作服务器C的历史运行日志信息。
具体地,本方案的每个采集线程可以以一种故障类别对应的关键词作为采集参数,不同的线程对应的故障类别关键词不同,这样通过多个采集线程可快速对多种类别历史数据进行采集,从而加快数据源的采集速度。
在上述基础上,本方案利用每个目标关联设备的每个类别历史数据和目标关联设备的故障结果对一预设模型进行训练,获得多个故障判定模型。例如,数据库服务器A在某一次出现硬盘负载上限情况下,数据库服务器B也出现硬盘负载上限现象,而外部操作服务器C出现宕机现象,那么将数据库服务器B出现硬盘负载上限时的历史运行日志信息以及出现硬盘负载上限现象结果和外部操作服务器C出现宕机时的历史运行日志信息以及出现宕机这个故障结果作为数据源;数据库服务器A在另一次出现硬盘负载上限情况下,数据库服务器B没有出现故障现象,外部操作服务器C没有出现故障现象,那么将数据库服务器B和外部操作服务器C此时的运行历史日志信息和分别对应没有故障的结果作为数据源。需要说明的是,当目标监测设备出现其他类型故障时也同样采取类似的数据获取方式得到相关故障类别对应的数据源。然后基于每种故障类别对应的数据源分别对一个预设神经网络模型进行训练,从而获得多个故障判定模型。
这里需要说明的是,前述步骤S120中在多个故障判定模型中查找目标故障判定模型的过程是与目标监测模型出现的故障类型挂钩的,这与每个故障判定模型对于目标关联设备的故障检测结果无关。
在通过上述方式训练获得多个故障判定模型基础上,本方案可通过如下方式基于目标判定模型和目标关联设备的当前运行日志对目标关联设备的故障进行判定,如图5所示,包括:
步骤S500:将每个目标关联设备的当前运行日志信息输入目标故障判定模型中,获得目标故障判定模型输出的每个目标关联设备的故障类型以及对应的故障概率。
步骤S510:根据每个目标关联设备的故障概率确定对应的目标关联设备是否故障。
在上述实施方式中,本方案将每个目标关联设备的当前运行日志依次输入该查找的目标故障判定模型中,目标故障判定模型可依次输出每个目标关联设备的故障类型以及对应的故障概率。例如,在数据库服务器A出现硬盘负载上限的故障基础上,目标故障判定模型输出数据库服务器B出现硬盘负载上限的概率为0.8,没有故障的概率为0.2;外部操作服务器C出现宕机的概率为0.1,没有故障的概率为0.9。
在上述获得每个目标关联设备的故障概率基础上,作为一种可能的实施方式,本方案可判定故障概率是否大于预设值,例如,数据库服务器B出现硬盘负载上限的概率是否大于0.5,若是,则确定该目标关联设备出现对应故障类型的故障;若否,则确定该目标关联设备没有出现故障。
作为另一种可能的实施方式,在数据库服务器A出现硬盘负载上限的故障基础上,数据库服务器B或外部操作服务器C很有可能有多种故障类型,目标故障判定模型此时输出每种故障类型对应的故障概率,例如,数据库服务器B出现硬盘负载上限的概率为0.2、出现宕机的概率为0.6、没有故障的概率为0.6。在此基础上,本方案可根据每个目标关联设备的故障类型查找对应关联设备的故障类型对应的预设故障阈值,然后判断目标关联设备的故障概率是否超过对应的预设故障阈值,若是,则确定故障概率超过对应预设故障阈值的目标关联设备出现该故障类型对应的故障。例如,假设所有的故障类型的预设故障阈值均设置为0.5,在上述基础上,数据库服务器B只有出现宕机的概率是超过预设故障阈值0.5的,那么则确定该数据库服务器B出现宕机故障。
在本实施例的可选实施方式中,在确定目标监测设备的当前故障类别之前,本方案还可首先判定目标监测设备是否出现网络问题,如图6所示,包括:
步骤S600:向目标监测设备发送网络状态识别信息。
步骤S610:判断是否接收目标监测设备返回的网络状态信息,若是,则转到步骤S100;若否,则转到步骤S620。
步骤S620:向目标监测设备对应的检修机构发送网络故障告警。
在上述实施方式中,本方案可对所有监测设备进行状态监测,当工作人员发现某个监测设备(即目标监测设备)状态异常时,可首先向该目标监测设备发送网络状态识别信息,例如PING信息或心跳信息等,然后判断目标监测设备是否对该网络状态识别信息进行反馈,若反馈,则说明该目标监测设备出现其他类型的故障而不是网络故障,在此基础上,则执行前述方法对目标监测设备以及其关联设备进行故障判定,若没有反馈,则说明该目标监测设备出现网络故障,继而向目标监测设备对应的检修机构发送网络故障告警。
图7出示了本申请提供一种故障判定装置的示意性结构框图,应理解,该装置与图1至图6中执行的方法实施例对应,能够执行前述的方法涉及的步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system,OS)中的软件功能模块。具体地,该装置包括:确定模块700,用于根据目标监测设备的当前运行日志信息确定目标监测设备的当前故障类别;查找模块710,用于根据当前故障类别查找对应的目标故障判定模型;其中,预设有多种故障判定模型,不同的故障判定类别对应的故障判定模型不同;获取模块720,用于获取目标监测设备的至少一个目标关联设备的当前运行日志信息;判定模块730,用于根据每个目标关联设备的当前运行日志信息和目标故障判定模型,判定每个目标关联设备是否故障。
上述设计的故障判定装置,本方案首先基于目标监测设备的当前运行日志判定目标监测设备的当前故障类型,然后基于目标监测设备的当前故障类型在预先训练完成的多种故障判定模型中查找目标故障判定模型,然后基于查找到的目标故障判定模型和目标监测设备的目标关联设备的当前运行日志判定目标关联设备是否故障,由此,本方案不仅对于出现故障的目标监测设备的故障类型进行判别,还基于神经网络模型对目标监测设备关联的设备进行快速故障判定,不仅保证个体设备的故障识别同时还基于故障相关性对相关设备的故障分析和识别,进而对整个系统的故障进行预判和告警,从而提高故障判别的准确性和全面性。
在本实施例的可选实施方式中,目标关联设备包括与目标监测设备类型相同并且与目标监测设备相关联的设备;该判定模块730,具体用于根据每个目标关联设备的当前运行日志信息和目标故障判定模型判定每个目标关联设备是否出现与目标监测设备相同类别的故障。
在本实施例的可选实施方式中,该获取模块720,还用于获取目标监测设备的历史运行日志信息,该历史运行日志信息包括每个类别对应的没有发生故障的历史运行日志信息以及发生故障的历史运行日志信息;训练模块740,用于根据目标监测设备的每个类别对应的没有发生故障的历史运行日志信息、发生故障的历史运行日志信息以及对应类别故障结果对一预设网络模型进行训练,获得所述多个故障判定模型。
在本实施例的可选实施方式中,该获取模块720,具体用于通过多线程并发采集目标监测设备的历史运行日志信息;其中,每个线程以一种故障类别对应的关键词作为采集参数,不同的线程对应的故障类别关键词不同。
在本实施例的可选实施方式中,目标关联设备包括与目标监测设备关联的每一设备;该判定模块730,还具体用于将每个目标关联设备的当前运行日志信息输入目标故障判定模型中,获得目标故障判定模型输出的每个目标关联设备的故障类型以及对应的故障概率;根据每个目标关联设备的故障概率确定对应的目标关联设备是否故障。
在本实施例的可选实施方式中,该判定模块730,还具体用于根据每个目标关联设备的故障类型查找对应关联设备的故障类型对应的预设故障阈值;判断目标关联设备每种故障类型对应的故障概率是否超过对应的预设故障阈值;若是,则确定目标关联设备出现故障概率超过对应预设故障阈值的故障类型对应的故障。
在本实施例的可选实施方式中,采集模块750,用于通过多线程并发采集每个目标关联设备的多个类别历史数据;其中,每个类别历史数据包括目标监测设备出现该故障类别情况下的目标关联设备的历史运行日志信息以及目标监测设备没有出现该故障类别情况下的目标关联设备的历史运行日志信息;每个线程以一种故障类别对应的关键词作为采集参数,不同的线程对应的故障类别关键词不同;该训练模块740,还用于利用每个目标关联设备的每个类别历史数据和目标关联设备的故障结果对一预设模型进行训练,获得多个故障判定模型。
在本实施例的可选实施方式中,该装置还包括发送模块760,用于向目标监测设备发送网络状态识别信息;判断模块770,用于判断是否接收目标监测设备返回的网络状态信息;执行模块780,用于在判断模块判断接收到目标监测设备返回的网络状态信息之后,执行根据目标监测设备的当前运行日志信息确定目标监测设备的当前故障类别的步骤;该发送模块760,还用于在判断模块判断没有接收到目标监测设备返回的网络状态信息之后,向目标监测设备对应的检修机构发送网络故障告警。
根据本申请的一些实施例,如图8所示,本申请提供一种电子设备8,包括:处理器801和存储器802,处理器801和存储器802通过通信总线803和/或其他形式的连接机构(未标出)互连并相互通讯,存储器802存储有处理器801可执行的计算机程序,当计算设备运行时,处理器801执行该计算机程序,以执行时执行任一可选的实现方式中的方法,例如步骤S100至步骤S130:根据目标监测设备的当前运行日志信息确定目标监测设备的当前故障类别;根据当前故障类别查找对应的目标故障判定模型;获取目标监测设备的至少一个目标关联设备的当前运行日志信息;根据每个目标关联设备的当前运行日志信息和目标故障判定模型,判定每个目标关联设备是否故障。
本申请提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行前述任一可选的实现方式中的方法。
其中,存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-OnlyMemory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
本申请提供一种计算机程序产品,该计算机程序产品在计算机上运行时,使得计算机执行任一可选的实现方式中的方法。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,其均应涵盖在本申请的权利要求和说明书的范围当中。尤其是,只要不存在结构冲突,各个实施例中所提到的各项技术特征均可以任意方式组合起来。本申请并不局限于文中公开的特定实施例,而是包括落入权利要求的范围内的所有技术方案。

Claims (8)

1.一种故障判定方法,其特征在于,所述方法包括:
根据目标监测设备的当前运行日志信息确定所述目标监测设备的当前故障类别;
根据所述当前故障类别查找对应的目标故障判定模型;其中,预设有多个故障判定模型,不同的故障判定类别对应的故障判定模型不同;
获取所述目标监测设备的至少一个目标关联设备的当前运行日志信息;
根据每个目标关联设备的当前运行日志信息和所述目标故障判定模型,判定每个目标关联设备是否故障;
在所述根据目标监测设备的当前运行日志信息确定所述目标监测设备的当前故障类别之前,所述方法还包括:采集每个目标关联设备的多个类别历史数据;其中,每个类别历史数据包括目标监测设备出现该故障类别情况下的目标关联设备的历史运行日志信息以及目标监测设备没有出现该故障类别情况下的目标关联设备的历史运行日志信息;分别利用每个目标关联设备的每个类别历史数据和每个类别历史数据对应的故障结果对一预设模型进行训练,获得所述多个故障判定模型。
2.根据权利要求1所述的方法,其特征在于,其中,所述目标关联设备包括与所述目标监测设备类型相同并且与所述目标监测设备相关联的设备;
所述根据每个目标关联设备的当前运行日志信息和所述目标故障判定模型判定每个目标关联设备是否故障,包括:
根据每个目标关联设备的当前运行日志信息和所述目标故障判定模型判定每个目标关联设备是否出现与所述目标监测设备相同类别的故障。
3.根据权利要求1所述的方法,其特征在于,其中,所述目标关联设备包括与所述目标监测设备关联的每一设备;
所述根据每个目标关联设备的当前运行日志信息和所述目标故障判定模型判定每个目标关联设备是否故障,包括:
将每个目标关联设备的当前运行日志信息输入所述目标故障判定模型中,获得所述目标故障判定模型输出的每个目标关联设备的故障类型以及对应的故障概率;
根据每个目标关联设备的故障概率确定对应的目标关联设备是否故障。
4.根据权利要求3所述的方法,其特征在于,根据每个目标关联设备的故障概率确定对应的目标关联设备是否故障,包括:
根据每个目标关联设备的故障类型查找对应关联设备的故障类型对应的预设故障阈值;
判断所述目标关联设备每个故障类型对应的故障概率是否超过对应的预设故障阈值;
若是,则确定目标关联设备出现故障概率超过对应预设故障阈值的故障类型对应的故障。
5.根据权利要求1所述的方法,其特征在于,其中,通过多线程并发采集每个目标关联设备的多个类别历史数据;每个线程以一种故障类别对应的关键词作为采集参数,不同的线程对应的故障类别关键词不同。
6.根据权利要求1所述的方法,其特征在于,在所述根据目标监测设备的当前运行日志信息确定所述目标监测设备的当前故障类别之前,所述方法还包括:
向所述目标监测设备发送网络状态识别信息;
判断是否接收所述目标监测设备返回的网络状态信息;
若是,则执行所述根据目标监测设备的当前运行日志信息确定所述目标监测设备的当前故障类别的步骤;
若否,则向所述目标监测设备对应的检修机构发送网络故障告警。
7.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法。
CN202210836940.9A 2022-07-15 2022-07-15 故障判定方法、电子设备和存储介质 Active CN115225460B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210836940.9A CN115225460B (zh) 2022-07-15 2022-07-15 故障判定方法、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210836940.9A CN115225460B (zh) 2022-07-15 2022-07-15 故障判定方法、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN115225460A CN115225460A (zh) 2022-10-21
CN115225460B true CN115225460B (zh) 2023-11-28

Family

ID=83612749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210836940.9A Active CN115225460B (zh) 2022-07-15 2022-07-15 故障判定方法、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN115225460B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115865751B (zh) * 2022-11-25 2024-05-14 南方电网数字平台科技(广东)有限公司 基于多态数据的故障检测方法及装置
CN115576738B (zh) * 2022-12-08 2023-03-03 中诚华隆计算机技术有限公司 一种基于芯片分析实现设备故障确定的方法及系统
CN116009480B (zh) * 2023-03-24 2023-06-09 中科航迈数控软件(深圳)有限公司 一种数控机床的故障监测方法、装置、设备及存储介质
CN116502166B (zh) * 2023-04-28 2024-02-02 天宇正清科技有限公司 一种对目标设备故障预测的方法、装置、设备和介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183619A (zh) * 2015-09-29 2015-12-23 北京奇艺世纪科技有限公司 一种系统故障预警方法和系统
CN108664374A (zh) * 2018-05-17 2018-10-16 腾讯科技(深圳)有限公司 故障告警模型创建方法、装置、故障告警方法及装置
WO2019057363A1 (en) * 2017-09-21 2019-03-28 Thomson Licensing APPARATUS AND METHOD FOR PREDICTING RARE FAILURES
KR102068622B1 (ko) * 2019-03-14 2020-01-21 차수정 이기종 네트워크 보안시스템을 위한 빅데이타 분석기반의 지능형 장애예측 시스템
CN110750377A (zh) * 2019-09-06 2020-02-04 深圳平安通信科技有限公司 一种故障定位方法及装置
CN111338836A (zh) * 2020-02-24 2020-06-26 北京奇艺世纪科技有限公司 处理故障数据的方法、装置、计算机设备和存储介质
CN113010389A (zh) * 2019-12-20 2021-06-22 阿里巴巴集团控股有限公司 一种训练方法、故障预测方法、相关装置及设备
CN113687969A (zh) * 2021-07-29 2021-11-23 济南浪潮数据技术有限公司 告警信息生成方法、装置、电子设备及可读存储介质
CN113722134A (zh) * 2021-07-29 2021-11-30 浪潮电子信息产业股份有限公司 一种集群故障处理方法、装置、设备及可读存储介质
CN113822421A (zh) * 2021-10-14 2021-12-21 平安科技(深圳)有限公司 基于神经网络的异常定位方法、系统、设备及存储介质
CN114328198A (zh) * 2021-12-17 2022-04-12 浪潮电子信息产业股份有限公司 一种系统故障检测方法、装置、设备及介质
CN114327983A (zh) * 2021-12-28 2022-04-12 浪潮(北京)电子信息产业有限公司 一种基于日志的故障确定方法、装置、设备和介质
WO2022083540A1 (zh) * 2020-10-20 2022-04-28 华为技术有限公司 故障恢复预案确定方法、装置及系统、计算机存储介质
CN114629776A (zh) * 2020-12-11 2022-06-14 中国联合网络通信集团有限公司 基于图模型的故障分析方法及装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183619A (zh) * 2015-09-29 2015-12-23 北京奇艺世纪科技有限公司 一种系统故障预警方法和系统
WO2019057363A1 (en) * 2017-09-21 2019-03-28 Thomson Licensing APPARATUS AND METHOD FOR PREDICTING RARE FAILURES
CN108664374A (zh) * 2018-05-17 2018-10-16 腾讯科技(深圳)有限公司 故障告警模型创建方法、装置、故障告警方法及装置
KR102068622B1 (ko) * 2019-03-14 2020-01-21 차수정 이기종 네트워크 보안시스템을 위한 빅데이타 분석기반의 지능형 장애예측 시스템
CN110750377A (zh) * 2019-09-06 2020-02-04 深圳平安通信科技有限公司 一种故障定位方法及装置
CN113010389A (zh) * 2019-12-20 2021-06-22 阿里巴巴集团控股有限公司 一种训练方法、故障预测方法、相关装置及设备
CN111338836A (zh) * 2020-02-24 2020-06-26 北京奇艺世纪科技有限公司 处理故障数据的方法、装置、计算机设备和存储介质
WO2022083540A1 (zh) * 2020-10-20 2022-04-28 华为技术有限公司 故障恢复预案确定方法、装置及系统、计算机存储介质
CN114629776A (zh) * 2020-12-11 2022-06-14 中国联合网络通信集团有限公司 基于图模型的故障分析方法及装置
CN113687969A (zh) * 2021-07-29 2021-11-23 济南浪潮数据技术有限公司 告警信息生成方法、装置、电子设备及可读存储介质
CN113722134A (zh) * 2021-07-29 2021-11-30 浪潮电子信息产业股份有限公司 一种集群故障处理方法、装置、设备及可读存储介质
CN113822421A (zh) * 2021-10-14 2021-12-21 平安科技(深圳)有限公司 基于神经网络的异常定位方法、系统、设备及存储介质
CN114328198A (zh) * 2021-12-17 2022-04-12 浪潮电子信息产业股份有限公司 一种系统故障检测方法、装置、设备及介质
CN114327983A (zh) * 2021-12-28 2022-04-12 浪潮(北京)电子信息产业有限公司 一种基于日志的故障确定方法、装置、设备和介质

Also Published As

Publication number Publication date
CN115225460A (zh) 2022-10-21

Similar Documents

Publication Publication Date Title
CN115225460B (zh) 故障判定方法、电子设备和存储介质
US11541899B2 (en) Vehicle diagnosis apparatus, vehicle diagnosis system, and vehicle diagnosis program
CN113282461B (zh) 传输网的告警识别方法和装置
US10346744B2 (en) System and method for visualisation of behaviour within computer infrastructure
US8635498B2 (en) Performance analysis of applications
US9389946B2 (en) Operation management apparatus, operation management method, and program
US20170364561A1 (en) Telemetry data contextualized across datasets
JP6875179B2 (ja) システム分析装置、及びシステム分析方法
US7814369B2 (en) System and method for detecting combinations of perfomance indicators associated with a root cause
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
CN110178121B (zh) 一种数据库的检测方法及其终端
EP3663919B1 (en) System and method of automated fault correction in a network environment
CN115118581B (zh) 一种基于5g的物联网数据全链路监控和智能保障系统
KR20090038683A (ko) 자동 취약점 진단 웹 방화벽 및 이를 이용한 취약점 진단방법
CN111722952A (zh) 业务系统的故障分析方法、系统、设备和存储介质
CN107391335B (zh) 一种用于检查集群健康状态的方法和设备
CN109669844A (zh) 设备故障处理方法、装置、设备和存储介质
CN113438110B (zh) 一种集群性能的评价方法、装置、设备及存储介质
CN114547318A (zh) 故障信息获取方法、装置、设备和计算机存储介质
CN114880285A (zh) 基于关联数据分析的计算机安全存储系统及方法
CN117240527A (zh) 一种网络安全风险防范系统及方法
CN114867052B (zh) 无线网络故障诊断方法、装置、电子设备和介质
CN112073396A (zh) 一种内网横向移动攻击行为的检测方法及装置
CN111309584A (zh) 数据处理方法、装置、电子设备及存储介质
CN115185932A (zh) 数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant