CN115643163A - 故障设备定位方法、装置、设备和存储介质 - Google Patents

故障设备定位方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN115643163A
CN115643163A CN202211371425.4A CN202211371425A CN115643163A CN 115643163 A CN115643163 A CN 115643163A CN 202211371425 A CN202211371425 A CN 202211371425A CN 115643163 A CN115643163 A CN 115643163A
Authority
CN
China
Prior art keywords
equipment
cluster
sub
information
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211371425.4A
Other languages
English (en)
Inventor
张春和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202211371425.4A priority Critical patent/CN115643163A/zh
Publication of CN115643163A publication Critical patent/CN115643163A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本申请提供一种故障设备定位方法、装置、设备和存储介质,本申请中的方法包括:响应多维度查询指令,查询多维度查询指令对应的目标执行机列表,读取目标执行机列表中的设备集群;获取多维度查询指令中的各检测维度信息,根据各检测维度对设备集群进行分组,得到各维度检测信息对应的设备子集群;针对每一设备子集群,根据设备子集群的设备信息和历史检测数据生成设备子集群对应的健康检测指令,并向设备子集群发送健康检测指令;接收各设备子集群中的设备反馈信息,根据设备反馈信息定位设备集群中的故障设备。实现准确地对各设备集群进行监测,并且能够快速高效地定位设备集群中的故障设备,提高故障设备检测效率。

Description

故障设备定位方法、装置、设备和存储介质
技术领域
本申请涉及物联网技术领域,具体涉及一种故障设备定位方法、装置、设备和存储介质。
背景技术
目前,随着数字化技术的发展,许多企业均需通过部署各种业务系统来执行各种业务。现有的金融系统下存在各种子系统,不同子系统需要多个实体设备或虚拟设备构成设备集群共同运行来执行子系统的各项功能,然而子系统在大规模发版,应用上下线,机房停机维护等场景下,运维人员难以快速定位发生故障的问题设备,导致维护效率不高。
发明内容
本申请实施例提供一种故障设备定位方法、装置、设备和存储介质,旨在解决现有技术中难以对设备集群中的故障设备进行准确定位的技术问题。
一方面,本申请实施例提供一种故障设备定位方法,所述故障设备定位方法包括以下步骤:
响应多维度查询指令,查询所述多维度查询指令对应的目标执行机列表,读取所述目标执行机列表中的设备集群;
获取所述多维度查询指令中的各检测维度信息,根据各所述检测维度信息对所述设备集群进行分组,得到各所述维度检测信息对应的设备子集群;
针对每一设备子集群,根据所述设备子集群的设备信息和所述设备子集群的历史检测数据生成健康检测指令,并向所述设备子集群发送所述健康检测指令;
接收各所述设备子集群的设备反馈信息,根据所述设备反馈信息定位故障设备。
在本申请一种可能的实现方式中,所述响应多维度查询指令,查询所述多维度查询指令对应的目标执行机列表,读取所述目标执行机列表中的设备集群,包括:
访问预设内容管理系统,获取所述预设内容管理系统中存储的各执行机列表的集群地址信息;
获取所述多维度查询指令的目标地址信息,比较所述目标地址信息和各所述集群地址信息,得到集群地址相似度;
获取集群地址相似度大于预设相似度阈值的目标执行机列表,读取所述目标执行机列表中的设备集群。
在本申请一种可能的实现方式中,所述针对每一设备子集群,根据所述设备子集群的设备信息和所述设备子集群的历史检测数据生成健康检测指令,并向所述设备子集群发送所述健康检测指令,包括:
针对每一设备子集群,获取所述设备子集群的设备信息,以及所述设备子集群的历史检测数据;
读取所述历史检测数据中的目标字段对应的维度检测参数,根据所述设备信息和所述维度检测参数生成所述设备子集群的健康检测指令,向所述设备子集群发送所述健康检测指令。
在本申请一种可能的实现方式中,所述接收各所述设备子集群的设备反馈信息,根据所述设备反馈信息定位所述设备子集群中的故障设备,包括:
检测预设的数据传输接口,获取各所述设备子集群基于所述健康检测指令生成的设备反馈信息,以及所述设备反馈信息对应的设备反馈时间;
根据所述设备反馈信息和所述设备反馈时间定位设备子集群中的故障设备。
在本申请一种可能的实现方式中,所述根据所述设备反馈信息和所述设备反馈时间确定所述设备子集群中的故障设备,包括:
获取所述设备反馈信息中的校验码,将所述校验码和预设核验码进行匹配;
若所述校验码和所述预设核验码不匹配和/或所述设备反馈时间超过预设反馈时间阈值,则确定所述设备反馈信息所对应的设备子集群中的故障设备。
在本申请一种可能的实现方式中,所述接收各所述设备子集群的设备反馈信息,根据所述设备反馈信息定位所述设备集群中的故障设备,包括:
接收各所述设备子集群的设备反馈信息,根据所述设备反馈信息和预设集群图像模板生成集群状态图像;
将所述集群状态图像输入预设的集群检测模型进行特征提取,得到所述集群状态图像对应的集群状态特征;
对所述集群状态特征进行异常状态检测,得到所述集群状态特征中的故障设备特征,定位所述故障设备特征对应的故障设备。
在本申请一种可能的实现方式中,所述根据所述设备反馈信息定位所述设备子集群中的故障设备之后,还包括:
获取所述故障设备的多维设备信息,其中,所述多维设备信息包括设备标识、应用标识和设备子集群标识中的至少一种;
基于所述多维设备信息对预设告警信息进行配置,生成所述故障设备的故障告警信息,并在预设显示界面显示所述故障告警信息。
另一方面,本申请提供一种故障设备定位装置,所述故障设备定位装置包括:
指令获取模块,被配置为响应多维度查询指令,查询所述多维度查询指令对应的目标执行机列表,读取所述目标执行机列表中的设备集群;
集群读取模块,被配置为获取所述多维度查询指令中的各检测维度信息,根据各所述检测维度信息对所述设备集群进行分组,得到各维度检测信息对应的设备子集群;
集群分组模块,被配置为针对每一设备子集群,根据所述设备子集群的设备信息和历史检测数据生成所述设备子集群对应的健康检测指令,并向所述设备子集群发送所述健康检测指令;
故障定位模块,被配置为接收各所述设备子集群中的设备反馈信息,根据所述设备反馈信息定位所述设备集群中的故障设备。
另一方面,本申请还提供一种故障设备定位设备,所述故障设备定位设备包括:
一个或多个处理器;
存储器;以及
一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现所述的故障设备定位方法的步骤。
另一方面,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行所述的故障设备定位方法中的步骤。
本申请中通过响应多维度查询指令,查询所述多维度查询指令对应的目标执行机列表,读取所述目标执行机列表中的设备集群;获取所述多维度查询指令中的各检测维度信息,根据各所述检测维度信息对所述设备集群进行分组,得到各维度检测信息对应的设备子集群;针对每一设备子集群,根据所述设备子集群的设备信息和历史检测数据生成所述设备子集群对应的健康检测指令,并向所述设备子集群发送所述健康检测指令;接收各所述设备子集群中的设备反馈信息,根据所述设备反馈信息定位所述设备集群中的故障设备。实现准确地对各设备集群进行监测,并且能够快速高效地定位设备集群中的故障设备,提高故障设备检测效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例故障设备定位方法的场景示意图;
图2为本申请实施例中故障设备定位方法的一个实施例的流程示意图;
图3为本申请实施例提供的故障设备定位方法中根据设备反馈信息和设备反馈时间确定设备集群中的故障设备的一个实施例的流程示意图;
图4为本申请实施例提供的故障设备定位方法中根据设备反馈信息确定设备集群中的故障设备的一个实施例的流程示意图;
图5是本申请实施例中提供的故障设备定位装置的一个实施例结构示意图;
图6为本申请实施例中提供的故障设备定位设备的一个实施例结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本申请中,“示例性”一词用来表示“用作例子、例证或说明”。本申请中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本发明,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本发明。在其它实例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本发明的描述变得晦涩。因此,本发明并非旨在限于所示的实施例,而是与符合本申请所公开的原理和特征的最广范围相一致。
目前,随着数字化技术的发展,许多企业均需通过部署各种业务系统来执行各种业务。现有的金融系统下存在各种子系统,不同子系统需要多个实体设备或虚拟设备构成设备集群共同运行来执行子系统的各项功能,然而子系统在大规模发版,应用上下线,机房停机维护等场景下,运维人员难以快速定位发生故障的问题设备,导致维护效率不高。
基于此,本申请提出一种故障设备定位方法、装置、设备和计算机可读存储介质,以解决现有技术中难以对设备集群中的故障设备进行准确定位的技术问题。
本发明实施例中的故障设备定位方法应用于故障设备定位装置,故障设备定位装置设置于故障设备定位设备,故障设备定位设备中设置有一个或多个处理器、存储器,以及一个或多个应用程序,其中一个或多个应用程序被存储于存储器中,并被配置为由处理器执行以实施故障设备定位方法;其中,故障设备定位设备可以是智能终端,例如手机、平板电脑、智能电视、网络设备和智能电脑等;可选的,故障设备定位设备还可以是一台设备,或者多台设备组成的服务集群。
如图1所示,图1为本申请实施例故障设备定位方法的场景示意图,本发明实施例中故障设备定位场景包括故障设备定位设备100(故障设备定位设备100中集成有故障设备定位装置)和设备集群200,故障设备定位设备100中运行有故障设备定位方法对应的计算机可读存储介质,以执行故障设备定位方法的步骤,设备集群200可以由多个服务器或设备组成的服务器集群或智能终端集群。
可以理解的是,图1所示故障设备定位方法场景中的故障设备定位设备,或者故障设备定位设备中包含的装置并不构成对本发明实施例的限制,即故障设备定位方法的场景中包含的故障设备定位设备的设备数量、设备种类,或者各个设备中包含的装置数、装置种类不影响本发明实施例中技术方案的整体实现,均可以算作本发明实施例要求保护技术方案的等效替换或者衍生。
本发明实施例中故障设备定位设备100主要用于:响应多维度查询指令,查询所述多维度查询指令对应的目标执行机列表,读取所述目标执行机列表中的设备集群;获取所述多维度查询指令中的各检测维度信息,根据各所述检测维度信息对所述设备集群进行分组,得到各维度检测信息对应的设备子集群;针对每一设备子集群,根据所述设备子集群的设备信息和历史检测数据生成所述设备子集群对应的健康检测指令,并向所述设备子集群发送所述健康检测指令;接收各所述设备子集群中的设备反馈信息,根据所述设备反馈信息定位所述设备集群中的故障设备。
本发明实施例中的故障设备定位设备100可以是独立的故障设备定位设备,例如手机、平板电脑、智能电视、网络设备、设备和智能电脑等智能终端,也可以是由多个故障设备定位设备组成的故障设备定位网络或故障设备定位集群。
本申请实施例提供一种故障设备定位方法、装置、设备和计算机可读存储介质,以下分别进行详细说明。
本领域技术人员可以理解的是,图1中所示出的应用环境,仅仅是与本申请方案相关的其中一种应用场景,并不构成对本申请方案应用场景的限定,其它的应用环境还可以包括比图1所示出的更多或更少的故障设备定位设备,或者故障设备定位网络连接关系,例如图1中仅示出一个故障设备定位设备,可以理解的是该故障设备定位方法的场景还可以包括一个或多个故障设备定位设备,具体在此不做限定;该故障设备定位设备100种还可以包括存储器,用于存储执行机列表和其它数据。
需要说明的是,图1所示的故障设备定位方法的场景示意图仅仅是一个示例,本发明实施例描述的故障设备定位方法的场景是为了更加清楚的说明本发明实施例的技术方案,并不构成对本发明实施例提供的技术方案的限定。
基于上述故障设备定位方法的场景,提出本发明所公开的故障设备定位方法的各个实施例。
如图2所示,图2为本申请实施例中故障设备定位方法的一个实施例的流程示意图,该故障设备定位方法包括如下步骤201~步骤204:
201、响应多维度查询指令,查询所述多维度查询指令对应的目标执行机列表,读取所述目标执行机列表中的设备集群;
本实施例中的故障设备定位方法应用于故障设备定位设备,故障设备定位设备的种类和数量不做具体限定,即,故障设备定位设备可以是一个或多个智能终端或者设备,在一个具体实施例中,故障设备定位设备为智能电脑。
具体的,故障设备定位设备被配置为响应多维度查询指令,并获取多维度查询指令对应的设备集群,并生成该设备集群中各设备子集群的健康检测指令,通过该健康检测指令定位设备集群中的故障设备。其中,该设备集群为各业务系统中设置的用于支持业务系统运行的虚拟服务器集群或实体服务器集群。
具体的,故障设备定位设备在运行过程中,接收多维度查询指令,并查询该多维度查询指令对应的设备集群。其中,该多维度查询指令的触发方式在此不做具体限定,即,该多维度查询指令可以为用户主动触发的,例如,在一个实施例中,用户为业务系统的运维人员,通过向故障设备定位设备输入多维度信息,主动触发多维度查询指令。可选的,该多维度查询指令还可以为故障设备定位设备自动触发的,例如,该故障设备定位设备预先设置了定时检测进程,在特定时间段内,自动根据预设的多维度信息生成多维度查询指令。
具体的,故障设备定位设备在接收多维度查询指令后,响应该多维度查询指令,并获取该多维度查询指令中的目标地址信息,通过该目标地址信息查询执行机列表,得到该多维度查询指令对应的目标执行机列表,并读取该目标执行机列表中的设备集群。其中,该执行机列表为记录当前各业务系统正在运行的业务服务器的设备列表。
具体的,故障设备定位设备访问预设内容管理系统,获取该预设内容管理系统中存储的各执行机列表的集群地址信息。并将该集群地址信息和多维度查询指令中的目标地址信息进行毕竟,从而得到集群地址相似度。
故障设备定位设备在获取集群地址相似度后,将该集群地址相似度和预设相似度阈值进行比较,从而得到集群地址相似度大于预设相似度阈值的目标执行机列表,并读取该目标执行机列表中的设备集群。
202、获取所述多维度查询指令中的各检测维度信息,根据各所述检测维度信息对所述设备集群进行分组,得到各所述维度检测信息对应的设备子集群;
故障设备定位设备在获取目标执行机列表中的设备集群后,还获取多维度查询指令中的各检测维度信息,通过该检测维度信息对该设备集群进行分组,得到各维度检测信息对应的设备子集群。
具体的,故障设备定位设备解析该多维度查询指令,得到该多维度查询指令中的各检测维度信息,其中,该检测维度信息包括应用标识、设备环境信息、设备机房信息和存储空间标识中的至少一项。故障设备定位设备通过至少一项检测维度信息对设备集群进行分组,从而得到至少包含一个相同维度检测信息的设备子集群。
故障设备定位设备在得到各维度检测信息对应的设备子集群后,还对每个设备子集群进行故障设备定位,从而确定各设备子集群中运行异常的故障设备。
203、针对每一设备子集群,根据所述设备子集群的设备信息和所述设备子集群的历史检测数据生成健康检测指令,并向所述设备子集群发送所述健康检测指令;
故障设备定位设备在获取各设备子集群后,针对每一设备子集群,生成该设备子集群对应的健康检测指令,并将该健康检测指令传输到设备子集群中的各集群设备中进行设备健康检测。
具体的,故障设备定位设备获取每个设备子集群的设备信息,以及各设备子集群的历史检测数据。故障设备定位设备识别该历史检测数据中预设的目标字段,并读取该目标字段所对应的维度检测参数。
故障设备定位设备在获取到该设备子集群的设备信息和维度检测参数后,将该设备信息和维度检测参数输入预设指令模板,生成该设备子集群的健康检测指令。
故障设备定位设备在生成各个设备子集群的健康检测指令后,还获取各设备子集群的协议地址,通过该协议地址将健康检测指令发送到对应的设备子集群进行健康检测,从而确定各个设备子集群中的故障设备。
204、接收各所述设备子集群中的设备反馈信息,根据所述设备反馈信息定位所述设备子集群中的故障设备。
具体的,故障设备定位设备在向各设备子集群中的各执行服务器发送健康检测指令后,还检测预设的数据传输接口,获取各设备子集群基于该健康检测指令所传回的设备反馈信息,并统计该设备子集群传回该设备反馈信息的设备反馈时间。其中,该设备反馈时间为故障设备定位设备发送该健康检测指令到该故障设备定位设备接收到该设备反馈信息或故障设备定位设备发送该健康检测指令后至超过预设反馈时间阈值的时间段时长。
具体的,设备故障设备定位设备在接收到各设备子集群的设备反馈信息,并统计该设备反馈信息所对应的设备反馈时间后,通过设备反馈信息和设备反馈时间定位该设备集群中的故障设备。
本实施例中,故障设备定位设备通过响应多维度查询指令,查询所述多维度查询指令对应的目标执行机列表,读取所述目标执行机列表中的设备集群;获取所述多维度查询指令中的各检测维度信息,根据各所述检测维度信息对所述设备集群进行分组,得到各维度检测信息对应的设备子集群;针对每一设备子集群,根据所述设备子集群的设备信息和历史检测数据生成所述设备子集群对应的健康检测指令,并向所述设备子集群发送所述健康检测指令;接收各所述设备子集群中的设备反馈信息,根据所述设备反馈信息定位所述设备集群中的故障设备。实现准确地对各设备集群进行监测,并且能够快速高效地定位设备集群中的故障设备,提高故障设备检测效率。
如图3所示,图3为本申请实施例提供的故障设备定位方法中根据设备反馈信息和设备反馈时间确定设备集群中的故障设备的一个实施例的流程示意图,具体地,包括步骤301~步骤302:
301、获取所述设备反馈信息中的校验码,将所述校验码和预设核验码进行匹配;
302、若所述校验码和所述预设核验码不匹配和/或所述设备反馈时间超过预设反馈时间阈值,则确定所述设备反馈信息所对应的设备子集群中的故障设备。
基于上述实施例,本实施例中,故障设备定位设备在获取到设备子集群中的集群设备基于该健康检测指令所传回的设备反馈信息后,通过该设备反馈信息和设备反馈时间来确定该集群设备是否为该设备子集群中的故障设备。
具体的,故障设备定位设备解析该设备反馈信息,获取该设备反馈信息中的校验码,并将校验码和预设核验码进行匹配,得到匹配结果。
可选的,若该匹配结果为匹配失败,即校验码和预设核验码不匹配,则确定该集群设备为该设备子集群中的故障设备。
可选的,若该匹配结果为匹配成功,即校验码和预设核验码相匹配,则故障设备定位设备还进一步获取该设备反馈信息所对应的设备反馈时间,若该设备反馈时间未超过预设反馈时间阈值,则确定该设备反馈信息所对应的集群设备为该设备子集群中的正常集群设备。
可选的,若该设备反馈时间超过预设反馈时间阈值,即该设备反馈信息中的校验码和预设核验码相匹配,但该设备反馈信息的设备反馈时间超过预设反馈时间阈值,则该故障设备定位设备确定该设备反馈信息所对应的集群设备为该设备子集群中的故障设备。
可选的,在其它实施例,故障设备定位设备还能够根据维度检测参数设置对应的维度检测阈值,并通过该维度检测阈值来对设备反馈信息中的各维度反馈信息进行评估,从而多维度地确定该设备反馈信息所对应的集群设备是否为故障设备。
本实施例中,故障设备定位设备通过获取所述设备反馈信息中的校验码,将所述校验码和预设核验码进行匹配;若所述校验码和所述预设核验码不匹配和/或所述设备反馈时间超过预设反馈时间阈值,则确定所述设备反馈信息所对应的集群设备为故障设备。实现多维度地对设备集群中的集群设备进行健康检验,从而定位设备集群中的故障设备。
如图4所示,图4为本申请实施例提供的故障设备定位方法中根据设备反馈信息确定设备集群中的故障设备的一个实施例的流程示意图,具体的,包括步骤401~步骤403:
401、接收各所述设备子集群的设备反馈信息,根据所述设备反馈信息和预设集群图像模板生成集群状态图像;
402、将所述集群状态图像输入预设的集群检测模型进行特征提取,得到所述集群状态图像对应的集群状态特征;
403、对所述集群状态特征进行异常状态检测,得到所述集群状态特征中的故障设备特征,定位所述故障设备特征对应的故障设备。
基于上述实施例,本实施例中,故障设备定位设备在接收到各设备子集群的设备反馈信息后,还根据该设备反馈信息生成该设备集群的集群状态图像。可选的,该设备反馈信息还可以为以往对该设备集群进行健康检测所生成的历史设备反馈信息。
具体的,故障设备定位设备解析该设备反馈信息,将各设备集群中的集群设备的作为各连接节点,通过该设备反馈信息确定各集群设备与集群设备、集群设备与故障设备定位设备之间连接关系,并将该连接节点和连接关系填入预设集群图像模板,从而生成集群状态图像,其中,该集群状态图像为表征该设备集群中各集群设备的运行连接关系的节点连接图像。其中,该连接关系为表征各集群设备和集群设备、集群设备和故障设备定位设备之间能够进行交互通信操作。可选的,该集群状态图像还能够以邻接矩阵形式展示。
故障设备定位设备在生成该集群状态图像后,将该集群状态图像输入预设的集群检测模型中进行特征提取,从而得到集群状态图像对应的集群状态特征。其中,该集群检测模型可以为特征提取模型,故障设备定位设备将集群状态图像输入到该集群检测模型,通过该集群检测模型对该集群状态图像中的邻接矩阵进行特征提取,从而得到该集群状态图像的集群状态特征。
故障设备定位设备在获取到集群状态特征后,还对该集群状态特征进行异常状态检测,从而得到该集群状态特征中的故障设备特征,并通过该故障设备特征定位对应的故障设备。
具体的,故障设备定位设备将集群状态特征输入到预设的分析模型进行异常状态检测,可选的,该分析模型可以为全连接层和特征分类模型组合,故障设备定位设备通过该分析模型对该集群状态特征进行池化分类,得到该记者状态特征中的故障设备特征,其中,该故障设备特征为集群状态特征中集群设备连接异常的特征。故障设备定位设备在获取到该故障设备特征后,解析该故障设备特征,得到该故障设备特征对应的故障设备标识,并通过该故障设备标识定位对应的故障设备。
本实施例中,故障设备定位设备通过接收各所述设备子集群的设备反馈信息,根据所述设备反馈信息和预设集群图像模板生成所述设备集群的集群状态图像;将所述集群状态图像输入预设的集群检测模型进行特征提取,得到所述集群状态图像对应的集群状态特征;对所述集群状态特征进行异常状态检测,得到所述集群状态特征中的故障设备特征,定位所述故障设备特征对应的故障设备。实现准确评估设备集群中的故障设备,提高故障设备定位的准确性和定位效率。
为了更好实施本申请实施例中故障设备定位方法,在故障设备定位方法基础之上,本申请实施例中还提供一种故障设备定位装置,如图5所示,图5是本申请实施例中提供的故障设备定位装置的一个实施例结构示意图,所述故障设备定位装置500包括:
指令获取模块501,被配置为响应多维度查询指令,查询所述多维度查询指令对应的目标执行机列表,读取所述目标执行机列表中的设备集群;
集群读取模块502,被配置为获取所述多维度查询指令中的各检测维度信息,根据各所述检测维度信息对所述设备集群进行分组,得到各维度检测信息对应的设备子集群;
集群分组模块503,被配置为针对每一设备子集群,根据所述设备子集群的设备信息和所述设备子集群的历史检测数据生成健康检测指令,并向所述设备子集群发送所述健康检测指令;
故障定位模块504,被配置为接收各所述设备子集群中的设备反馈信息,根据所述设备反馈信息定位所述设备集群中的故障设备。
在本申请一些实施例中,故障设备定位装置响应多维度查询指令,查询所述多维度查询指令对应的目标执行机列表,读取所述目标执行机列表中的设备集群,包括:
访问预设内容管理系统,获取所述预设内容管理系统中存储的各执行机列表的集群地址信息;
获取所述多维度查询指令的目标地址信息,比较所述目标地址信息和各所述集群地址信息,得到集群地址相似度;
获取集群地址相似度大于预设相似度阈值的目标执行机列表,读取所述目标执行机列表中的设备集群。
在本申请一些实施例中,故障设备定位装置针对每一设备子集群,根据所述设备子集群的设备信息和所述设备子集群的历史检测数据生成健康检测指令,并向所述设备子集群发送所述健康检测指令,包括:
针对每一设备子集群,获取所述设备子集群的设备信息,以及所述设备子集群的历史检测数据;
读取所述历史检测数据中的目标字段对应的维度检测参数,根据所述设备信息和所述维度检测参数生成所述设备子集群的健康检测指令,向所述设备子集群发送所述健康检测指令。
在本申请一些实施例中,故障设备定位装置接收各所述设备子集群的设备反馈信息,根据所述设备反馈信息定位所述设备集群中的故障设备,包括:
检测预设的数据传输接口,获取各所述设备子集群基于所述健康检测指令生成的设备反馈信息,以及所述设备反馈信息对应的设备反馈时间;
根据所述设备反馈信息和所述设备反馈时间定位设备子集群中的故障设备。
在本申请一些实施例中,故障设备定位装置根据所述设备反馈信息和所述设备反馈时间确定所述设备子集群中的故障设备,包括:
获取所述设备反馈信息中的校验码,将所述校验码和预设核验码进行匹配;
若所述校验码和所述预设核验码不匹配和/或所述设备反馈时间超过预设反馈时间阈值,则确定所述设备反馈信息所对应的设备子集群中的故障设备。
在本申请一些实施例中,故障设备定位装置接收各所述设备子集群的设备反馈信息,根据所述设备反馈信息定位所述设备集群中的故障设备,包括:
接收各所述设备子集群的设备反馈信息,根据所述设备反馈信息和预设集群图像模板生成集群状态图像;
将所述集群状态图像输入预设的集群检测模型进行特征提取,得到所述集群状态图像对应的集群状态特征;
对所述集群状态特征进行异常状态检测,得到所述集群状态特征中的故障设备特征,定位所述故障设备特征对应的故障设备。
在本申请一些实施例中,故障设备定位装置根据所述设备反馈信息定位所述设备集群中的故障设备之后,还包括:
获取所述故障设备的多维设备信息,其中,所述多维设备信息设备标识、应用标识和设备子集群标识中的至少一种;
基于所述多维设备信息对预设告警信息进行配置,生成所述故障设备的故障告警信息,并在预设显示界面显示所述故障告警信息。
本实施例中,故障设备定位装置通过响应多维度查询指令,查询所述多维度查询指令对应的目标执行机列表,读取所述目标执行机列表中的设备集群;获取所述多维度查询指令中的各检测维度信息,根据各所述检测维度信息对所述设备集群进行分组,得到各维度检测信息对应的设备子集群;针对每一设备子集群,根据所述设备子集群的设备信息和历史检测数据生成所述设备子集群对应的健康检测指令,并向所述设备子集群发送所述健康检测指令;接收各所述设备子集群中的设备反馈信息,根据所述设备反馈信息定位所述设备集群中的故障设备。实现准确地对各设备集群进行监测,并且能够快速高效地定位设备集群中的故障设备,提高故障设备检测效率。
本发明实施例还提供一种故障设备定位设备,如图6所示,图6是本申请实施例中提供的故障设备定位设备的一个实施例结构示意图。
故障设备定位设备集成了本发明实施例所提供的任一种故障设备定位装置,所述故障设备定位设备包括:
一个或多个处理器;
存储器;以及
一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行上述故障设备定位方法实施例中任一实施例中所述的故障设备定位方法中的步骤。
具体来讲:故障设备定位设备可以包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602、电源603和输入单元604等部件。本领域技术人员可以理解,图6中示出的故障设备定位设备结构并不构成对故障设备定位设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器601是该故障设备定位设备的控制中心,利用各种接口和线路连接整个故障设备定位设备的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行故障设备定位设备的各种功能和处理数据,从而对故障设备定位设备进行整体监控。可选的,处理器601可包括一个或多个处理核心;优选的,处理器601可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器601中。
存储器602可用于存储软件程序以及模块,处理器601通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据故障设备定位设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器601对存储器602的访问。
故障设备定位设备还包括给各个部件供电的电源603,优选的,电源603可以通过电源管理系统与处理器601逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源603还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该故障设备定位设备还可包括输入单元604,该输入单元604可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,故障设备定位设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,故障设备定位设备中的处理器601会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中,并由处理器601来运行存储在存储器602中的应用程序,从而实现各种功能,如下:
响应多维度查询指令,查询所述多维度查询指令对应的目标执行机列表,读取所述目标执行机列表中的设备集群;
获取所述多维度查询指令中的各检测维度信息,根据各所述检测维度信息对所述设备集群进行分组,得到各维度检测信息对应的设备子集群;
针对每一设备子集群,根据所述设备子集群的设备信息和历史检测数据生成所述设备子集群对应的健康检测指令,并向所述设备子集群发送所述健康检测指令;
接收各所述设备子集群中的设备反馈信息,根据所述设备反馈信息定位所述设备集群中的故障设备。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种计算机可读存储介质,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random AccessMemory)、磁盘或光盘等。其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行本发明实施例所提供的任一种故障设备定位方法中的步骤。例如,所述计算机程序被处理器进行加载可以执行如下步骤:
响应多维度查询指令,查询所述多维度查询指令对应的目标执行机列表,读取所述目标执行机列表中的设备集群;
获取所述多维度查询指令中的各检测维度信息,根据各所述检测维度信息对所述设备集群进行分组,得到各维度检测信息对应的设备子集群;
针对每一设备子集群,根据所述设备子集群的设备信息和历史检测数据生成所述设备子集群对应的健康检测指令,并向所述设备子集群发送所述健康检测指令;
接收各所述设备子集群中的设备反馈信息,根据所述设备反馈信息定位所述设备集群中的故障设备。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对其他实施例的详细描述,此处不再赘述。
具体实施时,以上各个单元或结构可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元或结构的具体实施可参见前面的方法实施例,在此不再赘述。
以上对本申请实施例所提供的一种故障设备定位方法进行了详细介绍,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种故障设备定位方法,其特征在于,所述故障设备定位方法包括:
响应多维度查询指令,查询所述多维度查询指令对应的目标执行机列表,读取所述目标执行机列表中的设备集群;
获取所述多维度查询指令中的各检测维度信息,根据各所述检测维度信息对所述设备集群进行分组,得到各所述维度检测信息对应的设备子集群;
针对每一设备子集群,根据所述设备子集群的设备信息和所述设备子集群的历史检测数据生成健康检测指令,并向所述设备子集群发送所述健康检测指令;
接收各所述设备子集群的设备反馈信息,根据所述设备反馈信息定位故障设备。
2.如权利要求1所述的故障设备定位方法,其特征在于,所述响应多维度查询指令,查询所述多维度查询指令对应的目标执行机列表,读取所述目标执行机列表中的设备集群,包括:
访问预设内容管理系统,获取所述预设内容管理系统中存储的各执行机列表的集群地址信息;
获取所述多维度查询指令的目标地址信息,比较所述目标地址信息和各所述集群地址信息,得到集群地址相似度;
获取集群地址相似度大于预设相似度阈值的目标执行机列表,读取所述目标执行机列表中的设备集群。
3.如权利要求1所述的故障设备定位方法,其特征在于,所述针对每一设备子集群,根据所述设备子集群的设备信息和所述设备子集群的历史检测数据生成健康检测指令,并向所述设备子集群发送所述健康检测指令,包括:
针对每一设备子集群,获取所述设备子集群的设备信息,以及所述设备子集群的历史检测数据;
读取所述历史检测数据中的目标字段对应的维度检测参数,根据所述设备信息和所述维度检测参数生成所述设备子集群的健康检测指令,向所述设备子集群发送所述健康检测指令。
4.如权利要求1所述的故障设备定位方法,其特征在于,所述接收各所述设备子集群的设备反馈信息,根据所述设备反馈信息定位所述设备子集群中的故障设备,包括:
检测预设的数据传输接口,获取各所述设备子集群基于所述健康检测指令生成的设备反馈信息,以及所述设备反馈信息对应的设备反馈时间;
根据所述设备反馈信息和所述设备反馈时间定位设备子集群中的故障设备。
5.如权利要求4所述的故障设备定位方法,其特征在于,所述根据所述设备反馈信息和所述设备反馈时间确定所述设备子集群中的故障设备,包括:
获取所述设备反馈信息中的校验码,将所述校验码和预设核验码进行匹配;
若所述校验码和所述预设核验码不匹配和/或所述设备反馈时间超过预设反馈时间阈值,则确定所述设备反馈信息所对应的设备子集群中的故障设备。
6.如权利要求1所述的故障设备定位方法,其特征在于,所述接收各所述设备子集群的设备反馈信息,根据所述设备反馈信息定位所述设备子集群中的故障设备,包括:
接收各所述设备子集群的设备反馈信息,根据所述设备反馈信息和预设集群图像模板生成集群状态图像;
将所述集群状态图像输入预设的集群检测模型进行特征提取,得到所述集群状态图像对应的集群状态特征;
对所述集群状态特征进行异常状态检测,得到所述集群状态特征中的故障设备特征,定位所述故障设备特征对应的故障设备。
7.如权利要求1-6任一项所述的故障设备定位方法,其特征在于,所述根据所述设备反馈信息定位所述设备子集群中的故障设备之后,还包括:
获取所述故障设备的多维设备信息,其中,所述多维设备信息包括设备标识、应用标识和设备子集群标识中的至少一种;
基于所述多维设备信息对预设告警信息进行配置,生成所述故障设备的故障告警信息,并在预设显示界面显示所述故障告警信息。
8.一种故障设备定位装置,其特征在于,所述故障设备定位装置包括:
指令获取模块,被配置为响应多维度查询指令,查询所述多维度查询指令对应的目标执行机列表,读取所述目标执行机列表中的设备集群;
集群读取模块,被配置为获取所述多维度查询指令中的各检测维度信息,根据各所述检测维度信息对所述设备集群进行分组,得到各所述维度检测信息对应的设备子集群;
集群分组模块,被配置为针对每一设备子集群,根据所述设备子集群的设备信息和所述设备子集群的历史检测数据生成健康检测指令,并向所述设备子集群发送所述健康检测指令;
故障定位模块,被配置为接收各所述设备子集群的设备反馈信息,根据所述设备反馈信息定位所述设备集群中的故障设备。
9.一种故障设备定位设备,其特征在于,所述故障设备定位设备包括:
一个或多个处理器;
存储器;以及
一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现权利要求1至7中任一项所述的故障设备定位方法的步骤。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行权利要求1至7中任一项所述的故障设备定位方法的步骤。
CN202211371425.4A 2022-11-03 2022-11-03 故障设备定位方法、装置、设备和存储介质 Pending CN115643163A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211371425.4A CN115643163A (zh) 2022-11-03 2022-11-03 故障设备定位方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211371425.4A CN115643163A (zh) 2022-11-03 2022-11-03 故障设备定位方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN115643163A true CN115643163A (zh) 2023-01-24

Family

ID=84947153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211371425.4A Pending CN115643163A (zh) 2022-11-03 2022-11-03 故障设备定位方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN115643163A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117349128A (zh) * 2023-12-05 2024-01-05 杭州沃趣科技股份有限公司 一种服务器集群的故障监控方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117349128A (zh) * 2023-12-05 2024-01-05 杭州沃趣科技股份有限公司 一种服务器集群的故障监控方法、装置、设备及存储介质
CN117349128B (zh) * 2023-12-05 2024-03-22 杭州沃趣科技股份有限公司 一种服务器集群的故障监控方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111193605B (zh) 一种故障定位方法、装置及存储介质
US10528516B2 (en) Selection of a location for installation of a hardware component in a compute node using historical performance scores
EP2425585B1 (en) System and method for managing configurations of ncpi devices
CN112506755B (zh) 日志采集方法、装置、计算机设备和存储介质
CN113055252B (zh) 新增业务主机检测方法、装置、设备及存储介质
CN115643163A (zh) 故障设备定位方法、装置、设备和存储介质
CN111338888B (zh) 一种数据统计方法、装置、电子设备及存储介质
CN107066522B (zh) 数据库的访问方法和装置
CN115187331A (zh) 基于多模态数据的产品推荐方法、装置、设备及存储介质
CN103763126A (zh) 监控数据库的系统、方法及数据库监控装置
CN117093465B (zh) 服务器日志收集方法、装置、通信设备及存储介质
CN115190044B (zh) 设备连接状态检查方法、装置、设备和存储介质
CN115643158A (zh) 设备集群修复方法、装置、设备和存储介质
CN109510730A (zh) 分布式系统及其监控方法、装置、电子设备及存储介质
CN114466151B (zh) 国标相机的视频存储系统、计算机设备及存储介质
CN115858499A (zh) 一种数据库分区处理方法、装置、计算机设备和存储介质
CN111723064A (zh) 日志采集方法、装置、服务器及存储介质
CN115695073A (zh) 通信方法、装置、设备及存储介质
CN115660344A (zh) 用户排班方法、装置、电子设备及存储介质
CN112835906B (zh) 基于区块链的数据管理方法、装置、系统、设备和介质
CN113849356A (zh) 一种设备测试方法、装置、电子设备和存储介质
CN109271531B (zh) 基于运维知识图谱的数据管理中心
CN115914016A (zh) 集群故障诊断方法、装置、设备和存储介质
CN115801685A (zh) 应用服务限流方法、装置、设备和存储介质
CN114519475A (zh) Sap系统的业务操作方法、装置、设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination