CN115333923A - 一种故障点溯源分析方法、装置、设备及介质 - Google Patents

一种故障点溯源分析方法、装置、设备及介质 Download PDF

Info

Publication number
CN115333923A
CN115333923A CN202211257867.6A CN202211257867A CN115333923A CN 115333923 A CN115333923 A CN 115333923A CN 202211257867 A CN202211257867 A CN 202211257867A CN 115333923 A CN115333923 A CN 115333923A
Authority
CN
China
Prior art keywords
abnormal operation
information
operation state
equipment
acquiring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211257867.6A
Other languages
English (en)
Other versions
CN115333923B (zh
Inventor
许旭东
郑良谦
曾友东
魏能强
陈源
周宇
任少波
朱润娟
卢洪轩
郭丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Aircraft Industrial Group Co Ltd
Original Assignee
Chengdu Aircraft Industrial Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Aircraft Industrial Group Co Ltd filed Critical Chengdu Aircraft Industrial Group Co Ltd
Priority to CN202211257867.6A priority Critical patent/CN115333923B/zh
Publication of CN115333923A publication Critical patent/CN115333923A/zh
Application granted granted Critical
Publication of CN115333923B publication Critical patent/CN115333923B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults

Abstract

本申请公开了一种故障点溯源分析方法、装置、设备及介质,涉及数据处理领域;所述故障点溯源分析方法,包括以下步骤:获取设备的数据信息;其中,所述设备的数据信息包括所述设备的物理信息以及IPMI实时数据信息;基于所述数据信息,获得若干异常运行状态信息;基于若干所述异常运行状态信息,获得异常运行状态的监测信息;基于所述异常运行状态的监测信息,获得故障点的位置信息;基于所述设备的数据信息、所述异常运行状态信息、异常运行状态的监测信息和所述故障点的位置信息,获得所述故障点的数字孪生图像,以对所述故障点进行溯源分析。

Description

一种故障点溯源分析方法、装置、设备及介质
技术领域
本申请涉及数据处理领域,尤其涉及一种故障点溯源分析方法、装置、设备及介质。
背景技术
随着大数据时代的来临,企业的数据量越来越大,现有的集成管理系统性能上越来越难以满足企业的要求,无法对集成管理系统内设备故障点进行有效溯源分析,影响企业决策分析以及跨部门的协作,成为企业未来发展的瓶颈。
发明内容
本申请提供了一种故障点溯源分析方法、装置、设备及介质,旨在解决现有技术无法对集成管理系统内设备故障点进行有效溯源分析的技术问题。
为解决上述技术问题,本申请提供了:一种故障点溯源分析方法,包括以下步骤:
获取设备的数据信息;其中,所述设备的数据信息包括所述设备的物理信息以及IPMI实时数据信息;
基于所述数据信息,获得若干异常运行状态信息;
基于若干所述异常运行状态信息,获得异常运行状态的监测信息;
基于所述异常运行状态的监测信息,获得故障点的位置信息;
基于所述设备的数据信息、所述异常运行状态信息、异常运行状态的监测信息和所述故障点的位置信息,获得所述故障点的数字孪生图像,以对所述故障点进行溯源分析。
作为本申请一些可选实施方式,所述基于所述数据信息,获得若干异常运行状态信息,包括:
基于构建的改进型Zabbix监控模型和所述数据信息,获得异构数据与异常因子的回归关系;所述改进型Zabbix监控模型是基于对初始Zabbix监控模型的训练结果以及预设的阈值规则而进行改进获得的;所述初始Zabbix监控模型的训练结果是基于所述设备的历史数据对所述初始Zabbix监控模型进行训练而获得的;
基于所述设备的异构数据与异常因子的回归关系,获得若干异常运行状态信息。
作为本申请一些可选实施方式,所述基于所述设备的异构数据与异常因子的回归关系,获得若干异常运行状态信息,包括:
基于所述设备的异构数据与异常因子的回归关系,获得若干异常运行报告;
基于若干所述异常运行报告,获得若干异常运行状态信息。
作为本申请一些可选实施方式,所述基于若干所述异常运行状态信息,获得所述异常运行状态的监测信息,包括:
基于若干所述异常运行状态信息,获得异常运行状态的优先级别值;
基于所述异常运行状态的优先级别值,获得异常运行状态的监测信息。
作为本申请一些可选实施方式,所述基于若干所述异常运行状态信息,获得异常运行状态的优先级别值,包括:
基于若干所述异常运行状态信息,获得若干所述异常运行状态的异常运行值;
将若干所述异常运行值与预设的触发阈值对比,若所述异常运行值小于预设的触发阈值,对所述设备的异常运行状态进行修正;
若所述异常运行值大于预设的触发阈值,基于所述异常运行状态信息,获得异常运行状态的优先级别值。
作为本申请一些可选实施方式,所述对所述设备的异常运行状态进行修正,包括:
基于所述Zabbix监控模型创建的自动修正规则,对所述设备的前端管理器的第一配置文件进行修正,获得前端管理器的第二配置文件;
基于所述第二配置文件,重启所述设备,以对所述设备的异常运行状态进行修正。
作为本申请一些可选实施方式,所述若所述异常运行值大于预设的触发阈值,基于所述异常运行状态信息,获得异常运行状态的优先级别值,包括:
若所述异常运行值大于预设的触发阈值,则将所述异常运行状态信息按照预设的筛选条件进行筛选,获得第一异常运行状态信息;
将所述第一异常运行状态信息输入至预设的优先级鉴别模型,获得异常运行状态的优先级别值。
作为本申请一些可选实施方式,所述基于所述异常运行状态的优先级别值,获得异常运行状态的监测信息,包括:
基于所述异常运行状态的优先级别值,获得管理指令;
基于所述管理指令,对所述异常运行状态进行实时监测,获得异常运行状态的监测信息。
作为本申请一些可选实施方式,所述基于所述异常运行状态的优先级别值,获得管理指令,包括:
基于所述异常运行状态的优先级别值,获得优先级别值最高的异常运行状态;
基于优先级别值最高的异常运行状态,获得管理指令。
作为本申请一些可选实施方式,所述基于所述异常运行状态的监测信息,获得故障点的位置信息,包括:
基于所述异常运行状态的监测信息,获得故障点的监测信息;
基于所述异常运行状态信息,判断所述故障点是否存在实际运行故障;
若所述故障点不存在实际运行故障,则忽略且继续监测;
若所述故障点存在实际运行故障,则向故障点定位模型发送警报信息,获得故障点的位置信息。
作为本申请一些可选实施方式,所述Zabbix监控模型通过如下步骤构建获得:
构建初始Zabbix监控模型;
获取设备的历史数据;其中,所述设备的历史数据包括:设备的历史负载信息和设备的历史运行数据信息和设备的历史运行状态数据信息;
基于所述设备的历史数据,获得训练样本库;
基于所述训练样本库,对所述初始Zabbix监控模型进行训练,获得所述Zabbix监控模型。
基于同样的发明思路,本申请还提供了:一种故障点溯源分析装置,包括:
第一获取模块,用于获取设备的数据信息;其中,所述设备的数据信息包括所述设备的物理信息以及IPMI实时数据信息;
第二获取模块,用于基于所述数据信息,获得若干异常运行状态信息;
第三获取模块,用于基于若干所述异常运行状态信息,获得异常运行状态的监测信息;
第四获取模块,用于基于所述异常运行状态的监测信息,获得故障点的位置信息;
第五获取模型,用于基于所述设备的数据信息、所述异常运行状态信息、异常运行状态的监测信息和所述故障点的位置信息,获得所述故障点的数字孪生图像,以对所述故障点进行溯源分析。
基于同样的发明思路,本申请还提供了:一种电子设备,该电子设备包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序,实现如上所述的方法。
基于同样的发明思路,本申请还提供了:一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,处理器执行所述计算机程序,实现如上所述的方法。
相较于现有技术,本申请所述故障点溯源分析方法,为了实现对物理设备的运行状态的虚拟映射,通过采集获取设备的数据信息,并基于所述数据信息,获得若干异常运行状态信息;基于若干所述异常运行状态信息,获得异常运行状态的监测信息;基于所述异常运行状态的监测信息,获得故障点的位置信息;再基于所述设备的数据信息、所述异常运行状态信息、异常运行状态的监测信息和所述故障点的位置信息,获得孪生数据,从而获得所述故障点的数字孪生图像,用于对所述故障点进行溯源分析,从而实现对故障点的可视化定位管理。进一步的,为了实现对设备运行状态的实时监测,进而对设备在运行过程中出现的故障点进行预测以及修正,本申请所述孪生数据均为实时数据,以此实现虚实同步交互,在实际应用中,可将所生成的数字孪生图像发布到WEB监控大屏等页面展示,从而集成管理系统内设备故障点进行有效溯源分析,提高企业决策分析以及跨部门的协作效率。
附图说明
图1为本申请实施例所述硬件运行环境的电子设备结构示意图;
图2为本申请实施例所述故障点溯源分析装置的功能模块示意图;
图3为本申请实施例所述故障点溯源分析方法的流程示意图。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
随着大数据时代的来临,企业的数据量越来越大,现有的集成管理系统性能上越来越难以满足企业的要求,无法对集成管理系统内设备故障点进行有效溯源分析,影响企业决策分析以及跨部门的协作,成为企业未来发展的瓶颈。
而如何对集成管理系统内设备故障点进行有效溯源分析,成为亟需解决的技术难题。
参照图1,图1为本申请实施例方案涉及的硬件运行环境的计算机设备结构示意图。
如图1所示,该计算机设备可以包括:处理器1001,例如中央处理器(CentralProcessing Unit,CPU),所述处理器还可以是其他通用处理器、数字信号处理器 (DigitalSignal Processor,DSP)、专用集成电路 (Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,上述处理器是上述终端设备的控制中心,利用各种接口和线路连接整个用户终端的各个部分。通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及电子程序。
在图1所示的计算机设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明计算机设备中的处理器1001、存储器1005可以设置在计算机设备中,所述计算机设备通过处理器1001调用存储器1005中存储的故障点溯源分析装置,并执行本申请实施例提供的故障点溯源分析方法。
参考图2,本申请实施例提供了一种故障点溯源分析装置,包括:
第一获取模块,用于获取设备的数据信息;其中,所述设备的数据信息包括所述设备的物理信息以及IPMI实时数据信息;
第二获取模块,用于基于所述数据信息,获得若干异常运行状态信息;
第三获取模块,用于基于若干所述异常运行状态信息,获得异常运行状态的监测信息;
第四获取模块,用于基于所述异常运行状态的监测信息,获得故障点的位置信息;
第五获取模型,用于基于所述设备的数据信息、所述异常运行状态信息、异常运行状态的监测信息和所述故障点的位置信息,获得所述故障点的数字孪生图像,以对所述故障点进行溯源分析。
需要说明的是,本实施例中故障点溯源分析装置中各模块是与下述实施例中的故障点溯源分析方法中的各步骤一一对应,因此,本实施例的具体实施方式和达到的技术效果可参照下述故障点溯源分析方法的实施方式,这里不再赘述。
基于上述故障点溯源分析装置,参考图3,本申请实施例提供了一种故障点溯源分析方法,包括以下步骤:
S1、获取设备的数据信息;其中,所述设备的数据信息包括所述设备的物理信息以及IPMI实时数据信息;在本申请一些可选实施例中,所述数据信息包括:线路开关及其电流、负荷和位置信息、母联开关及其电流、负荷和位置信息、分段开关及其电流、负荷和位置信息;主变开关及其某侧电流、负荷和位置信息,母线刀闸及其电流、负荷和位置信息,线路刀闸及其连接的相应线路的电流、负荷和位置信息,以及主变刀闸及其连接的主变相应一侧的电流、负荷和位置信息等信息。所述IPMI实时数据信息是从多种机房机柜、交换机、物理机、存储设备、虚拟化设备获得的。所述机房机柜、交换机、物理机、存储设备、虚拟化设备与本申请所述故障点溯源分析系统中的第一获取模块之间存在通信连接,具体地,通信连接的方式为5G通信或蓝牙通信连接,同时在本实施例中,IPMI实时数据基于BMC和Zabbix框架获取。所述故障点溯源分析系统中的第一获取模块由于与所述机房机柜、交换机、物理机、存储设备、虚拟化设备之间存在5G通信或蓝牙通信连接,因此可对所述设备的数据信息进行实时更新,从而避免了如数据变迁或数据增加、删减等因素而造成的数据变化,而所述系统没有及时获取更新后的数据信息而导致的数据不齐。
在现实中,难免会有不法分子对设备的数据信息进行非法获取,而一旦设备的数据信息被非法获取,极有可能会导致设备的数据信息缺失,而影响数字孪生图像的仿真度,进而降低了对故障点的溯源分析准确度。因此在本申请一些可选实施例中,在所述获取设备的数据信息前,还需先对获取指令进行验证,验证结果为安全后,方可对所述设备的数据信息进行加载,从而避免数据信息被非法加载。而在对获取指令进行验证之前,也会先对设备是否有连接存储介质进行检测,以免因设备未连接存储介质而导致加载数据信息不成功。
在通过上述步骤获得所述设备的数据信息后,则需要通过所述数据信息对所述设备以及设备所连接或内置的前端管理器和外接端口的是否存在异常运行状态作出判断,因此在步骤S1之后包括步骤S2,即:
S2、基于所述数据信息,获得若干异常运行状态信息。在本实施例中,所述异常运行状态信息包括:出现异常运行状态的设备位置信息和运行状态信息等。所述异常运行状态信息通过构建的改进型Zabbix监控模型获得,具体步骤包括:
S21、基于构建的改进型Zabbix监控模型和所述数据信息,获得异构数据与异常因子的回归关系;所述改进型Zabbix监控模型是基于对初始Zabbix监控模型的训练结果以及预设的阈值规则而进行改进获得的;所述初始Zabbix监控模型的训练结果是基于所述设备的历史数据对所述初始Zabbix监控模型进行训练而获得的;所述异常因子是指可以基于所述改进型Zabbix监控模型而检测到的偏离大部分数据的异常数据,并将所述异常数据与预设的阈值进行对比后,而获得的。所述异构数据包括不同结构的数据,如数据的物理存储来源于不同体系结构的计算机中,如:大型机、小型机、工作站、PC或嵌入式系统中;或者数据的存储来源于不同的操作系统,如:Unix、Windows、Linux、OS/400等;再或者数据的存储管理机制不同,可以是关系型数据库系统,如:Oracle、SQL Server、DB2等,也可以是文件行二维数据,如:txt、CSV、XLS等;再或者数据存储在分散的物理位置上;再或者数据分别在不同的业务逻辑中存储和维护,从而相同意义的数据存在表现的异构。所述异构数据采集技术的原理是通过获取软件系统的底层数据交换和网络流量包,进行包流量分析和使用仿真技术采集到应用数据,并且输出结构化数据。因此本申请所述异构数据在使用前需先将所有的异构数据进行预处理为统一预处理,以使得所有异构数据为同一输出形式。
在建立了所述设备的异构数据与所述异常因子的回归关系后,可以获得所述设备的异构数据与所述异常因子之间的关联性,进而对所述设备及设备所连接或内置的前端管理器和外接端口的是否存在异常运行状态作出判断,从而获得若干异常运行状态信息。因此,在所述步骤S21之后还包括:S22、基于所述设备的异构数据与异常因子的回归关系,获得若干异常运行状态信息。
当然,在一些实施例中,基于所述设备的异构数据与异常因子的回归关系,获得异常数据信息会十分庞大,而对所述异常数据信息进行筛选也较为困难,因此本申请先是基于所述设备的异构数据与异常因子的回归关系,获得若干异常运行报告;再基于所述异常运行报告,以及针对不同设备或不同系统的异常运行状态,从所述异常运行报告中提取对应的异常运行状态信息。
在实际应用中,通过初步判断设备及设备所连接或内置的前端管理器和外接端口所涉及的任何一个节点出现异常运行,且根据提取获得的所述异常运行状态信息确定所述节点确实存在异常运行,那么即可对该节点进行监测,并获取相应的监测信息;因此在步骤S2之后,还包括:
S3、基于若干所述异常运行状态信息,获得异常运行状态的监测信息。
如上所述,由于设备及设备所连接或内置的前端管理器和外接端口所涉及的任何一个节点都有可能会出现异常运行,在实际应用中,如果同时几个节点均出现不同程度的异常运行,而实时监控设备又有限时,如何对若干异常节点进行排序成为亟需解决的技术问题,因此在一些具体实施例中,所述步骤S3可以包括:
S31、基于若干所述异常运行状态信息,获得异常运行状态的优先级别值;
S32、基于所述异常运行状态的优先级别值,获得异常运行状态的监测信息。
通过对若干异常运行状态的优先级别值进行鉴别,可以对若干所述异常运行状态进行排序,进而在实时监控设备有限时,对所述优先级别值较高的异常运行状态进行优先监测,以解燃眉之急。
当然不排除,从所述异常运行报告提取的异常运行状态信息存在格式错误等情况,因此在获得若干所述异常运行状态信息后,会先对所述异常运行状态信息的格式进行判断,避免所述异常运行状态信息有格式错误。在确定所述异常运行状态信息没有格式错误之后,基于若干所述异常运行状态信息,获得若干所述异常运行状态的异常运行值;将若干所述异常运行值与预设的触发阈值对比,若所述异常运行值小于预设的触发阈值,对所述设备的异常运行状态进行修正;若所述异常运行值大于预设的触发阈值,基于所述异常运行状态信息,获得异常运行状态的优先级别值。
其中,所述对所述设备的异常运行状态进行修正,包括:基于所述Zabbix监控模型创建的自动修正规则,对所述设备的前端管理器的第一配置文件进行修正,获得前端管理器的第二配置文件;基于所述第二配置文件,重启所述设备,以对所述设备的异常运行状态进行修正。
上述改进型Zabbix监控模型通过如下步骤构建获得:构建初始Zabbix监控模型;获取设备的历史数据;其中,所述设备的历史数据包括:设备的历史负载信息和设备的历史运行数据信息和设备的历史运行状态数据信息;基于所述设备的历史数据,获得训练样本库;基于所述训练样本库,对所述初始Zabbix监控模型进行训练,获得第一Zabbix监控模型和训练结果;基于所述训练结果和预设的规则对所述第一Zabbix监控模型进行改进,获得改进型Zabbix监控模型。
如果需要监测的故障点在设备的前端管理器,则在上述初始Zabbix监控模型构建前,还需创建Zabbix服务器与前端管理器的通信连接,并基于所述Zabbix服务器获取前端管理器所连接的设备的历史负载信息和历史运行状态数据,并基于所述前端管理器所连接的设备的历史负载信息和历史运行状态数据对所述初始Zabbix监控模型进行训练,获得所述第一Zabbix监控模型和训练结果;基于所述训练结果和预设的规则对所述第一Zabbix监控模型进行改进,获得改进型Zabbix监控模型。
其中,所述若所述异常运行值大于预设的触发阈值,基于所述异常运行状态信息,获得异常运行状态的优先级别值,包括:若所述异常运行值大于预设的触发阈值,则将所述异常运行状态信息按照预设的筛选条件进行筛选,获得第一异常运行状态信息;将所述第一异常运行状态信息输入至预设的优先级鉴别模型,获得异常运行状态的优先级别值。
通过上述方法对不同优先级别值的异常运行状态进行不同的处理,不仅可以提高处理效率,还可以有效避免监控资源和人力资源的浪费。
上述优先级鉴别模型针对筛选后所获得的若干份第一异常运行报告采用迭代匹配的方式进行提取,即先采用上一提取优先级别提取规则匹配异常运行报告,再使用与上一提取优先级别提取规则相对应的下一提取优先级提取规则匹配异常运行报告,直至每一个报告提取规则均进行了匹配,从而得到优先级别高的异常运行报告。
为避免监测设备被不法分子进行非法监测使用,本申请在确定各异常运行状态的优先级别值后,会针对不同的异常运行状态获得不同的管理指令,再基于所述管理指令对所述异常运行状态进行实时监测,进而获得有效监测信息。如在确定若干所述异常运行状态的优先级别值后,筛选出优先级别值最高对应的异常运行状态,并基于所述优先级别值最高对应的异常运行状态,获取对应的管理指令,进而对其进行优先监测。
当然对所述异常运行状态进行监测不是最终目的,因此在步骤S3之后,还包括:
S4、基于所述异常运行状态的监测信息,获得故障点的位置信息;
在一些实施例中,可能会存在监测信息显示某节点存在异常运行,但根据人为判断后,发现该节点并不存在实际运行故障,因此本申请并不是对所有监测设备显示为异常运行的状态都进行溯源分析,而是在监测信息显示某节点存在异常运行后,通过下述步骤对该节点是否真实存在运行障碍进行判断:
基于所述异常运行状态的监测信息,获得故障点的监测信息;基于所述异常运行状态信息,判断所述故障点是否存在实际运行故障;若所述故障点不存在实际运行故障,则忽略且继续监测;若所述故障点存在实际运行故障,则向故障点定位模型发送警报信息,获得故障点的位置信息。以此可以避免只通过监测而判断是否存在实际运行故障,而出现的误判现象;即本申请先是通过监测信息获得可能存在的故障点信息,再结合所述异常运行报告,判断所述故障点是否存在实际运行故障;若所述故障点不存在实际运行故障,则忽略且继续对其进行监测;但如果通过查验异常运行报告后,确定该故障点存在实际运行故障,那么就向故障点定位模型发送警报信息,以获得故障点的准确位置信息。
在通过上述步骤筛选出真实存在运行障碍的故障点后,即可通过下述步骤对所述故障点进行溯源分析:
S5、基于所述设备的数据信息、所述异常运行状态信息、异常运行状态的监测信息和所述故障点的位置信息,获得所述故障点的数字孪生图像,以对所述故障点进行溯源分析。
在本申请一些可选实施例中,本申请将所述设备的数据信息、所述异常运行状态信息、异常运行状态的监测信息和所述故障点的位置信息进行融合后,输入至数字孪生单元,用于生成所述故障点的数字孪生图像,以对所述故障点进行溯源分析。
其中所述数字孪生单元包括:数字孪生展示单元、数字孪生存储单元和数字孪生物理服务器;其中所述数字孪生展示单元按照单个业务信息及其所属的中间件、虚拟机、宿主机、物理机、网络设备、存储设备展示其拓扑架构图,并在其拓扑架构图中显示各节点状态及性能信息而设置;所述业务信息会关联中间件、虚拟机、物理机,中间件或虚拟机可获取到所在宿主机,宿主机和物理机可提取到其相关的网卡、HBA卡等唯一标志,通过SAN交换机和SAN存储的Portwwn号进行存储关系关联信息,系统同时会按照网络交换机、物理机网卡信息进行网络拓扑关联,展示网络节点状态及结构。所述HBA卡的信息包括HBA设备厂商、wwn号等,所述存储关系关联信息包括交换机名称和管理P、交换机端口号、状态;SAN交换机的信息包括设备名称、管理IP、wwn号以及端口号及状态。
其中所述数字孪生存储单元包括:通过存储设备可查看其关联的SAN交换机、物理机、以及物理机涉及的业务,通过列表展示其关系。其中所述数字孪生物理服务器通过物理机设备详情可查看物理机本身的HBA卡和网卡,系统通过列表展示其关联的存储设备和网络设备,通过物理机查看物理机基本信息、物理机性能信息、物理机硬件设备状态、物理机网卡、物理机HBA卡、物理机磁盘功能查看基本信息,同时通过物理机中的关联网络设备、关联SAN交换机、关联SAN存储查看其物理机关联信息。
相较于现有技术,本申请所述故障点溯源分析方法,为了实现对物理设备的运行状态的虚拟映射,通过采集获取设备的数据信息,并基于所述数据信息,获得若干异常运行状态信息;基于若干所述异常运行状态信息,获得异常运行状态的监测信息;基于所述异常运行状态的监测信息,获得故障点的位置信息;再基于所述设备的数据信息、所述异常运行状态信息、异常运行状态的监测信息和所述故障点的位置信息,获得孪生数据,从而获得所述故障点的数字孪生图像,用于对所述故障点进行溯源分析,从而实现对故障点的可视化定位管理。进一步的,为了实现对设备运行状态的实时监测,进而对设备在运行过程中出现的故障点进行预测以及修正,本申请所述孪生数据均为实时数据,以此实现虚实同步交互,在实际应用中,可将所生成的数字孪生图像发布到WEB监控大屏等页面展示,从而集成管理系统内设备故障点进行有效溯源分析,提高企业决策分析以及跨部门的协作效率。
基于同样的发明思路,本申请实施例还提供了:一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,处理器执行所述计算机程序,实现如上所述的方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。计算机可以是包括智能终端和服务器在内的各种计算设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
需要说明的是,在本文中,术语“包括”、“包含”或者其他任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台多媒体终端设备(可以是手机,计算机,电视接收机,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (14)

1.一种故障点溯源分析方法,其特征在于,包括以下步骤:
获取设备的数据信息;其中,所述设备的数据信息包括所述设备的物理信息以及IPMI实时数据信息;
基于所述数据信息,获得若干异常运行状态信息;
基于若干所述异常运行状态信息,获得异常运行状态的监测信息;
基于所述异常运行状态的监测信息,获得故障点的位置信息;
基于所述设备的数据信息、所述异常运行状态信息、异常运行状态的监测信息和所述故障点的位置信息,获得所述故障点的数字孪生图像,以对所述故障点进行溯源分析。
2.根据权利要求1所述故障点溯源分析方法,其特征在于,所述基于所述数据信息,获得若干异常运行状态信息,包括:
基于构建的改进型Zabbix监控模型和所述数据信息,获得异构数据与异常因子的回归关系;所述改进型Zabbix监控模型是基于对初始Zabbix监控模型的训练结果以及预设的阈值规则而进行改进获得的;所述初始Zabbix监控模型的训练结果是基于所述设备的历史数据对所述初始Zabbix监控模型进行训练而获得的;
基于所述设备的异构数据与异常因子的回归关系,获得若干异常运行状态信息。
3.根据权利要求2所述故障点溯源分析方法,其特征在于,所述基于所述设备的异构数据与异常因子的回归关系,获得若干异常运行状态信息,包括:
基于所述设备的异构数据与异常因子的回归关系,获得若干异常运行报告;
基于若干所述异常运行报告,获得若干异常运行状态信息。
4.根据权利要求1所述故障点溯源分析方法,其特征在于,所述基于若干所述异常运行状态信息,获得所述异常运行状态的监测信息,包括:
基于若干所述异常运行状态信息,获得异常运行状态的优先级别值;
基于所述异常运行状态的优先级别值,获得异常运行状态的监测信息。
5.根据权利要求4所述故障点溯源分析方法,其特征在于,所述基于若干所述异常运行状态信息,获得异常运行状态的优先级别值,包括:
基于若干所述异常运行状态信息,获得若干所述异常运行状态的异常运行值;
将若干所述异常运行值与预设的触发阈值对比,若所述异常运行值小于预设的触发阈值,对所述设备的异常运行状态进行修正;
若所述异常运行值大于预设的触发阈值,基于所述异常运行状态信息,获得异常运行状态的优先级别值。
6.根据权利要求5所述故障点溯源分析方法,其特征在于,所述对所述设备的异常运行状态进行修正,包括:
基于所述Zabbix监控模型创建的自动修正规则,对所述设备的前端管理器的第一配置文件进行修正,获得前端管理器的第二配置文件;
基于所述第二配置文件,重启所述设备,以对所述设备的异常运行状态进行修正。
7.根据权利要求5所述故障点溯源分析方法,其特征在于,所述若所述异常运行值大于预设的触发阈值,基于所述异常运行状态信息,获得异常运行状态的优先级别值,包括:
若所述异常运行值大于预设的触发阈值,则将所述异常运行状态信息按照预设的筛选条件进行筛选,获得第一异常运行状态信息;
将所述第一异常运行状态信息输入至预设的优先级鉴别模型,获得异常运行状态的优先级别值。
8.根据权利要求4所述故障点溯源分析方法,其特征在于,所述基于所述异常运行状态的优先级别值,获得异常运行状态的监测信息,包括:
基于所述异常运行状态的优先级别值,获得管理指令;
基于所述管理指令,对所述异常运行状态进行实时监测,获得异常运行状态的监测信息。
9.根据权利要求8所述故障点溯源分析方法,其特征在于,所述基于所述异常运行状态的优先级别值,获得管理指令,包括:
基于所述异常运行状态的优先级别值,获得优先级别值最高的异常运行状态;
基于优先级别值最高的异常运行状态,获得管理指令。
10.根据权利要求1所述故障点溯源分析方法,其特征在于,所述基于所述异常运行状态的监测信息,获得故障点的位置信息,包括:
基于所述异常运行状态的监测信息,获得故障点的监测信息;
基于所述异常运行状态信息,判断所述故障点是否存在实际运行故障;
若所述故障点不存在实际运行故障,则忽略且继续监测;
若所述故障点存在实际运行故障,则向故障点定位模型发送警报信息,获得故障点的位置信息。
11.根据权利要求2所述故障点溯源分析方法,其特征在于,所述改进型Zabbix监控模型通过如下步骤构建获得:
构建初始Zabbix监控模型;
获取设备的历史数据;其中,所述设备的历史数据包括:设备的历史负载信息和设备的历史运行数据信息和设备的历史运行状态数据信息;
基于所述设备的历史数据,获得训练样本库;
基于所述训练样本库,对所述初始Zabbix监控模型进行训练,获得第一Zabbix监控模型和训练结果;
基于所述训练结果和预设的规则对所述第一Zabbix监控模型进行改进,获得改进型Zabbix监控模型。
12.一种故障点溯源分析装置,其特征在于,包括:
第一获取模块,用于获取设备的数据信息;其中,所述设备的数据信息包括所述设备的物理信息以及IPMI实时数据信息;
第二获取模块,用于基于所述数据信息,获得若干异常运行状态信息;
第三获取模块,用于基于若干所述异常运行状态信息,获得异常运行状态的监测信息;
第四获取模块,用于基于所述异常运行状态的监测信息,获得故障点的位置信息;
第五获取模型,用于基于所述设备的数据信息、所述异常运行状态信息、异常运行状态的监测信息和所述故障点的位置信息,获得所述故障点的数字孪生图像,以对所述故障点进行溯源分析。
13.一种电子设备,其特征在于,该电子设备包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序,实现如权利要求1-11中任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,处理器执行所述计算机程序,实现如权利要求1-11中任一项所述的方法。
CN202211257867.6A 2022-10-14 2022-10-14 一种故障点溯源分析方法、装置、设备及介质 Active CN115333923B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211257867.6A CN115333923B (zh) 2022-10-14 2022-10-14 一种故障点溯源分析方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211257867.6A CN115333923B (zh) 2022-10-14 2022-10-14 一种故障点溯源分析方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN115333923A true CN115333923A (zh) 2022-11-11
CN115333923B CN115333923B (zh) 2023-03-14

Family

ID=83913466

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211257867.6A Active CN115333923B (zh) 2022-10-14 2022-10-14 一种故障点溯源分析方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN115333923B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276147A (zh) * 2019-06-24 2019-09-24 广东工业大学 一种基于数字孪生模型的制造系统故障溯源方法、系统
US20190340242A1 (en) * 2018-05-04 2019-11-07 Dell Products L.P. Linguistic semantic analysis monitoring/alert integration system
CN110708204A (zh) * 2019-11-18 2020-01-17 上海维谛信息科技有限公司 一种基于运维知识库的异常处理方法、系统、终端及介质
CN113505039A (zh) * 2021-07-13 2021-10-15 河北建筑工程学院 一种通信故障分析方法、设备及系统
CN114254055A (zh) * 2021-12-23 2022-03-29 中国工商银行股份有限公司 机房设备的故障分析方法、装置、计算机设备、存储介质
WO2022083540A1 (zh) * 2020-10-20 2022-04-28 华为技术有限公司 故障恢复预案确定方法、装置及系统、计算机存储介质
WO2022198899A1 (zh) * 2021-03-24 2022-09-29 国网河北省电力有限公司沧州供电分公司 一种海底电缆故障诊断方法、装置及设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190340242A1 (en) * 2018-05-04 2019-11-07 Dell Products L.P. Linguistic semantic analysis monitoring/alert integration system
CN110276147A (zh) * 2019-06-24 2019-09-24 广东工业大学 一种基于数字孪生模型的制造系统故障溯源方法、系统
CN110708204A (zh) * 2019-11-18 2020-01-17 上海维谛信息科技有限公司 一种基于运维知识库的异常处理方法、系统、终端及介质
WO2022083540A1 (zh) * 2020-10-20 2022-04-28 华为技术有限公司 故障恢复预案确定方法、装置及系统、计算机存储介质
WO2022198899A1 (zh) * 2021-03-24 2022-09-29 国网河北省电力有限公司沧州供电分公司 一种海底电缆故障诊断方法、装置及设备
CN113505039A (zh) * 2021-07-13 2021-10-15 河北建筑工程学院 一种通信故障分析方法、设备及系统
CN114254055A (zh) * 2021-12-23 2022-03-29 中国工商银行股份有限公司 机房设备的故障分析方法、装置、计算机设备、存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MARCELLO CINQUE: "Characterizing Direct Monitoring Techniques in Software Systems", 《IEEE TRANSACTIONS ON RELIABILITY》 *
宋国柱,景超: "智能数据中心机房管理研究与创新", 《现代计算机》 *

Also Published As

Publication number Publication date
CN115333923B (zh) 2023-03-14

Similar Documents

Publication Publication Date Title
EP3036633B1 (en) Cloud deployment infrastructure validation engine
US10693711B1 (en) Real-time event correlation in information networks
CN110166462B (zh) 访问控制方法、系统、电子设备及计算机存储介质
CN105580032B (zh) 用于降低升级软件时的不稳定性的方法和系统
CN110046073B (zh) 一种日志采集方法及装置、设备、存储介质
CN113282461B (zh) 传输网的告警识别方法和装置
EP3692443B1 (en) Application regression detection in computing systems
CN101206569A (zh) 用于动态识别促使服务劣化的组件的方法和系统
CN107451040A (zh) 故障原因的定位方法、装置及计算机可读存储介质
CN112529223A (zh) 一种设备故障报修方法、装置、服务器及储存介质
CN110851471A (zh) 分布式日志数据处理方法、装置以及系统
CN113672456A (zh) 应用平台的模块化自监听方法、系统、终端及存储介质
CN111108481B (zh) 故障分析方法及相关设备
CN114205216A (zh) 微服务故障的根因定位方法、装置、电子设备和介质
CN112231130A (zh) 一种根据日志定位故障的方法、系统、设备及介质
CN115664939A (zh) 一种基于自动化技术的综合运维方法、装置和存储介质
CN103731315A (zh) 一种服务器故障检测方法
CN117493188A (zh) 接口测试方法及装置、电子设备及存储介质
CN115333923B (zh) 一种故障点溯源分析方法、装置、设备及介质
CN114327988B (zh) 一种可视化网络故障关系确定方法和装置
CN112131090B (zh) 业务系统性能监控方法及装置、设备及介质
CN109684220A (zh) 一种基于事件回放的浏览器兼容性分析方法
CN105786865B (zh) 一种检索系统故障分析方法及装置
Li et al. Modeling web application for cross-browser compatibility testing
CN112799957A (zh) 基于用户行为的故障处理方法、系统、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant