CN115905338A - 故障数据的处理方法、装置及电子设备 - Google Patents

故障数据的处理方法、装置及电子设备 Download PDF

Info

Publication number
CN115905338A
CN115905338A CN202211566505.5A CN202211566505A CN115905338A CN 115905338 A CN115905338 A CN 115905338A CN 202211566505 A CN202211566505 A CN 202211566505A CN 115905338 A CN115905338 A CN 115905338A
Authority
CN
China
Prior art keywords
data
fault
equipment
fault data
solution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211566505.5A
Other languages
English (en)
Inventor
张文飞
徐铁军
杨有霞
林鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Qinghai Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Qinghai Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Qinghai Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Qinghai Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Qinghai Electric Power Co Ltd, Information and Telecommunication Branch of State Grid Qinghai Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202211566505.5A priority Critical patent/CN115905338A/zh
Publication of CN115905338A publication Critical patent/CN115905338A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种故障数据的处理方法、装置及电子设备。其中,该方法包括:获取运维系统中多类设备发送的日志数据,其中,多类设备至少包括主机设备、中间件设备和网络设备;在日志数据为故障数据时,从数据库中查询与故障数据对应的解决方案;将解决方案返回给与故障数据对应的设备。本申请解决了传统的运维故障分析方式需要人工消耗大量的时间排除出现的问题,存在效率低的技术问题。

Description

故障数据的处理方法、装置及电子设备
技术领域
本申请涉及数据处理领域,具体而言,涉及一种故障数据的处理方法、装置及电子设备。
背景技术
在目前这个互联网技术大发展的时代,各个行业越来越倚重互联网作为生产平台,各种新技术运用使业务运行更便捷的同时,核心业务互联网系统的运维部门带来的巨大的挑战。在信息化运维的早期,运维管理侧重于网络、服务器等基础设备的人工管理模式。随着核心业务系统涉及的环节日益增多,人工管理维护的成本越来越高。在核心业务系统(主机、中间件、网络设备等)出现各类问题时,往往是人工费时费力的跟踪分析原因,对问题诊断的时间过长,问题定位较为复杂,从而导致核心业务中断的失效代价很高。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种故障数据的处理方法、装置及电子设备,以至少解决传统的运维故障分析方式需要人工消耗大量的时间排除出现的问题,存在效率低的技术问题。
根据本申请实施例的一个方面,提供了一种故障数据的处理方法,包括:获取运维系统中多类设备发送的日志数据,其中,多类设备至少包括主机设备、中间件设备和网络设备;在日志数据为故障数据时,从数据库中查询与故障数据对应的解决方案;将解决方案返回给与故障数据对应的设备。
可选地,获取多类设备发送的日志数据,包括:获取日志数据中携带的与设备的类型对应的标签信息;依据标签信息对日志数据进行分类,得到与多类设备对应的多类日志数据;从数据库中查询与故障数据对应的解决方案,包括:确定故障数据所属的日志类型;从与日志类型对应的解决方案集合中查询与故障数据对应的解决方案。
可选地,从数据库中查询与故障数据对应的解决方案之前,方法还包括:在多类日志数据中存在多类设备的故障数据的情况下,获取多类设备的故障类型;按照预设映射关系确定与故障类型对应的故障等级;统计多类设备的故障等级;依据多类设备的故障等级确定运维系统的目标故障等级;在目标故障等级大于预设等级时,触发从数据库中查询与故障数据对应的解决方案。
可选地,从数据库中查询与故障数据对应的解决方案,包括:确定故障数据与数据库中存储的多个故障信息之间的相似度;将相似度最高的故障信息对应的解决方案确定为与故障数据对应的解决方案。
可选地,从数据库中查询与故障数据对应的解决方案,还包括:在数据库中不存在与故障数据对应的解决方案的情况下,将包含故障数据的告警信息发送给运维人员;接收运维人员对故障数据对应的设备的操作数据;将操作数据作为故障数据的解决方案存储在数据库中。
可选地,将解决方案返回给与故障数据对应的设备,包括:获取预设时间段内的多个目标故障数据,其中,多个目标故障数据为同类设备中具有相同故障类型的数据;将第一次从数据库中查询到的目标故障数据的解决方案确定为目标解决方案;将目标解决方案发送给多个目标故障数据中除第一次查询使用的目标故障数据之外的其他目标故障数据所对应的设备。
可选地,将解决方案返回给与故障数据对应的设备之后,方法还包括:获取经过故障处理之后的设备发送的第一日志数据;在第一日志数据中不包含故障数据的情况下,确定故障数据处理成功;将处理成功的故障数据从故障信息列表中删除。
可选地,方法还包括:在同一时刻确定多个设备存在故障数据的情况下,启动多个线程从数据库中查询与多个设备对应的故障数据对应的解决方案。
根据本申请实施例的另一方面,还提供了一种故障数据的处理装置,包括:获取模块,用于获取运维系统中多类设备发送的日志数据,其中,多类设备至少包括主机设备、中间件设备和网络设备;查询模块,用于在日志数据为故障数据时,从数据库中查询与故障数据对应的解决方案;返回模块,用于将解决方案返回给与故障数据对应的设备。
根据本申请实施例的又一方面,还提供了一种电子设备,包括:存储器,用于存储程序指令;处理器,与存储器连接,用于执行实现以下功能的程序指令:获取运维系统中多类设备发送的日志数据,其中,多类设备至少包括主机设备、中间件设备和网络设备;在日志数据为故障数据时,从数据库中查询与故障数据对应的解决方案;将解决方案返回给与故障数据对应的设备。
在本申请实施例中,通过获取运维系统中多类设备发送的日志数据,其中,多类设备至少包括主机设备、中间件设备和网络设备;在日志数据为故障数据时,从数据库中查询与故障数据对应的解决方案;将解决方案返回给与故障数据对应的设备,达到了根据故障数据将对应的解决方案返回给设备进行故障处理的目的,从而实现了提高故障检测效率的技术效果,进而解决了传统的运维故障分析方式需要人工消耗大量的时间排除出现的问题,存在效率低的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种用于实现故障数据的处理方法的计算机终端(或电子设备)的硬件结构框图;
图2是根据本申请实施例的一种故障数据的处理方法的流程图;
图3是根据本申请实施例的一种故障数据的处理装置的结构图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行解释说明的过程中出现的部分名词或术语适用于如下解释:
专家知识库:专家知识库是对告警信息进行统一分析处理处理的模板,为告警事件消缺提交建议参考建议的。通过主机(系统基础性能、组件服务、数据库、日志等)、中间件、网络设备等方案、案例、模板进行存储,还有包括各领域的专家长期工作实践中获得的经验知识收集,并利用信息可视化技术、信息科学的理论与方法结合,展示出丰富的知识架构达到多学科的融合目的的理论。
告警分析:利用告警分析系统深度解析技术实现对主机、中间件、网络设备等出现的告警信息数据进行智能分析识别,可有效的提高错误告警信息的原因,以及快速的解决错误告警。
智能监控:智能监控是集成了智能行为识别算法,利用机器监控主机、中间件、网络设备的产生的数据。可以有效的分析主机、中间件、网络设备错出现的错误信息。
故障自愈:通过运维平台的告警分析得到的故障报告,通过大规模的数据处理性能,灵活的视图展示、智能监控的能力,运用运维自动化的监控采集到的指标进行视图展示,告警检测、收敛、通知以及联动运维自动化的应用,进行故障自愈完成故障处理闭环。
对于传统的运维来说,当主机、中间件、网络设备出现问题,首先需要关注的是业务数据变化,从运维故障分析可以发现,主机、中间件、网络设备一旦出现问题,需要人工消耗大量的时间去排除出现的问题,存在问题较多、不符合运维效率的期望、耗时较长的问题,因此无法达到高效的运维方式。
为了提高运维效率,减少人力成本,市面上出现很多类似的监控告警这类的系统,但一般的监控告警系统停留在简单的告警信息上,无法为员工提供有效的错误报告分析,提供解决方案等。
针对上述问题,可对错误日志分析,大数据提供相似样例来快速的自动生成更为准确的错误信息,定位错误的来源,提供优质的解决方案。而自动生成更为准确的错误信息、更准确的错误来源和提供更优质的解决方案需要大量的知识库来源支撑,因此知识库中需要包括但不限于错误报告信息,解决错误方案等,系统会根据什么系统的错误报告的信息去匹配相应的解决方案。对应解决方案进行自动匹配,需要一定的算力支撑,本申请采用的方法是将解决方案导入人工智能系统,由运维自动化平台自动去采集匹配需要的方案样板,再通过算法提供优质的解决方法。以下详细说明。
本申请实施例所提供的故障数据的处理方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现故障数据的处理方法的计算机终端(或电子设备)的硬件结构框图。如图1所示,计算机终端10(或电子设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或电子设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本申请实施例中的故障数据的处理方法对应的程序指令/数据存储装置,处理器通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的故障数据的处理方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输模块106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输模块106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输模块106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或电子设备)的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算机设备(或电子设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机设备(或电子设备)中的部件的类型。
在上述运行环境下,本申请实施例提供了一种故障数据的处理方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图2是根据本申请实施例的一种故障数据的处理方法的流程图,如图2所示,该方法包括如下步骤:
步骤S202,获取运维系统中多类设备发送的日志数据,其中,多类设备至少包括主机设备、中间件设备和网络设备;
步骤S204,在日志数据为故障数据时,从数据库中查询与故障数据对应的解决方案;
步骤S206,将解决方案返回给与故障数据对应的设备。
在上述步骤S202至步骤S206中,由自动化运维系统的监控告警监控不同的系统主机、中间件、网络设备等发送的数据及信息形成的数据信息报告或日志数据,并将这些日志数据中的故障数据发送给运维自动化平台的专家知识库(也即上述数据库)中,运维自动化平台的专家知识库收集这些错误信息或故障数据,并做相应的查询匹配,然后给出相应的优质的解决方案。
在上述故障数据的处理方法中的步骤S202中,获取多类设备发送的日志数据,具体包括如下步骤:获取日志数据中携带的与设备的类型对应的标签信息;依据标签信息对日志数据进行分类,得到与多类设备对应的多类日志数据;从数据库中查询与故障数据对应的解决方案,具体包括如下步骤:确定故障数据所属的日志类型;从与日志类型对应的解决方案集合中查询与故障数据对应的解决方案。
在本申请实施例中,自动化运维会根据不同的系统主机、中间件、网络设备等开始监控、维护,监控到各主机、中间件、网络设备的日志数据。每类设备所产生的日志数据中都携带有设备的类型,例如主机设备发送的日志数据中携带有标签1,该标签1用于表示当前数据是由主机设备产生的;中间件设备发送的日志数据中携带有标签2,该标签2用于表示当前数据是由中间件设备产生的;网络设备发送的日志数据中携带有标签3,该标签3用于表示当前数据是由网络设备产生的。当系统接收到多类设备发送的日志数据后,根据日志数据中的标签即可对日志数据进行分类,例如将主机设备发送的日志数据作为第一类日志数据,将中间件设备发送的日志数据作为第二类日志数据,将网络设备发送的日志数据作为第三类日志数据。当不同类型的日志数据出现故障时,第一类日志数据中的故障数据为第一类故障数据,第二类日志数据中的故障数据为第二类故障数据,第三类日志数据中的故障数据为第三类故障数据。
在从数据库中查询故障数据的解决方案的过程中,需根据故障数据所属的日志类型,判断是哪类设备出现了故障,例如当故障数据携带标签1时,确定该故障数据是由主机设备产生的,进而确定该故障数据所属的日志类型为第一类日志数据,在查询对应的解决方案时,仅需从数据库中找到第一类日志数据的故障数据所对应的解决方案集合,再从该集合中根据具体的故障数据确定出最终的解决方案,可以减少查询的时间,提高查询效率。
在上述故障数据的处理方法中的步骤S204中,从数据库中查询与故障数据对应的解决方案之前,方法还包括如下步骤:在多类日志数据中存在多类设备的故障数据的情况下,获取多类设备的故障类型;按照预设映射关系确定与故障类型对应的故障等级;统计多类设备的故障等级;依据多类设备的故障等级确定运维系统的目标故障等级;在目标故障等级大于预设等级时,触发从数据库中查询与故障数据对应的解决方案。
在本申请的一种可选的实施例中,也可根据故障数据确定故障等级,进而根据故障等级决定是否触发查询解决方案。具体地,当获取到多类设备的故障数据时,根据故障数据的内容确定故障类型,例如故障数据表示主机的磁盘故障,则可将故障类型确定为磁盘故障等。
不同的故障类型对应的故障等级是不同的,例如上述磁盘故障对应的故障等级为一级故障,根据上述确定故障等级的过程,将多类设备中的故障数据进行不同的故障等级划分;例如,可以划分不同类设备的故障等级和运维系统的故障等级。
若多类设备处于同一运维系统中,则还需根据系统中出现故障的多类设备的故障等级确定整个系统的目标故障等级,例如在同一运维系统中,包括主机设备、中间件设备和网络设备,这三类设备在该运维系统中均出现了故障数据,且这三类故障数据对应的故障等级均为一级故障,则该运维系统所对应的目标故障等级也为一级故障。在整个运维系统的目标故障等级等于大于预设等级(例如大于一级故障,在本申请实施例中,一级故障可设置为最高级别的故障等级,即运维系统出现了最严重故障,需要及时处理,否则会影响运维系统正常运行的故障)时,则会从数据库中分别查询与上述故障数据分别对应的解决方案。
需要说明的是,虽然运维系统的不同故障等级均会触发上述解决方案的查询过程,还是会根据不同故障等级设置不同的触发方案,例如,随着故障等级的增大,触发时长会逐级缩短。例如,目标故障等级到达最高故障等级时,即运维系统出现了最严重故障,需要及时处理,否则会严重影响运维系统正常运行的故障。
还需要注意的是,如果这三类故障数据对应的故障等级为不同的故障等级,此时,可以根据三类设备的类型等因素为不同类设备设置不同的权重,然后根据各类设备的权重和故障等级确定运维系统的目标故障等级。多类设备的故障等级可以通过相应的评价指标确定。
在上述故障数据的处理方法中的步骤S204中,从数据库中查询与故障数据对应的解决方案,具体包括如下步骤:确定故障数据与数据库中存储的多个故障信息之间的相似度;将相似度最高的故障信息对应的解决方案确定为与故障数据对应的解决方案。
在本申请实施例中,可使用故障分析推荐算法确定与故障数据对应的解决方案,故障分析推荐算法是本申请实施例中所需的辅助算法,对主机、中间件、网络设备进行监控时,可以监控日志数据中的故障数据进行相似度推荐。每一个故障数据(例如告警报告)对不同的主机、中间件、网络设备都会进行匹配度或相似度查询,对应匹配度或相似度最高的内容进行相应的方案处理推荐,从而生成更优质的解决处理方案。系统会根据存储于运维自动化的专家知识库(即上述数据库)中数据,在通过上述故障分析推荐算法对应匹配相似的故障数据的解决方案,该解决方案会根据是否是最优质的解决方式去合并,最终确定相应的处理方案,提高运维的效率。
在上述故障数据的处理方法中的步骤S204中,从数据库中查询与故障数据对应的解决方案,还包括如下步骤:在数据库中不存在与故障数据对应的解决方案的情况下,将包含故障数据的告警信息发送给运维人员;接收运维人员对故障数据对应的设备的操作数据;将操作数据作为故障数据的解决方案存储在数据库中。
在本申请实施例中,若无法在数据库中查询到与故障数据对应的解决方案时,为了尽快解决故障数据,最优的方法是将故障数据通过告警信息发送给运维人员,例如发送给运维人员所使用的终端设备(如手机、电脑等),运维人员接收到该告警信息后,会对出现故障数据对应的设备进行操作,故障数据所对应的设备会实时记录运维人员进行维护时的操作数据,将该操作数据作为这种故障数据的解决方案进行保存,方便后续使用,达到不断完善数据库中存储的故障数据的解决方案的目的。
在上述故障数据的处理方法中的步骤S206中,将解决方案返回给与故障数据对应的设备,具体包括如下步骤:获取预设时间段内的多个目标故障数据,其中,多个目标故障数据为同类设备中具有相同故障类型的数据;将第一次从数据库中查询到的目标故障数据的解决方案确定为目标解决方案;将目标解决方案发送给多个目标故障数据中除第一次查询使用的目标故障数据之外的其他目标故障数据所对应的设备。
在本申请实施例中,为了减少查询次数,提高解决故障数据的处理时间,当在预设时间段内出现同类设备的相同故障类型的故障数据时,可将第一次查询得到的该类故障数据的解决方案发送给该预设时间段内的其他故障数据所对应的设备,例如,预设时间段为5分钟,这5分钟内的第1分钟获取到主机设备的磁盘故障数据,第4分钟同样获取到主机设备的磁盘故障数据,则在第1分钟获取到主机设备的磁盘故障数据时,从数据库中查询对应的解决方案,在第4分钟第二次获取到主机设备的磁盘故障数据时,无需从数据库中再次进行查询,可直接将第1分钟的主机设备的磁盘故障数据的解决方案发送给第4分钟出现磁盘故障的主机,从而提高故障的处理效率。也可理解为,在从数据库中查询每种故障数据对应的解决方案时,每种故障数据对应的解决方案会在内存中保存预设时长,这样在该预设时长内若有相同的故障数据时,无需再次查询,从而减少了查询次数。
在上述故障数据的处理方法中的步骤S206中,将解决方案返回给与故障数据对应的设备之后,方法还包括如下步骤:获取经过故障处理之后的设备发送的第一日志数据;在第一日志数据中不包含故障数据的情况下,确定故障数据处理成功;将处理成功的故障数据从故障信息列表中删除。
在本申请实施例中,在将故障数据对应的解决方案返回给对应的设备进行处理后,为了确保该解决方案解决了对应的故障数据,则在对故障数据处理之后,再次获取该设备的日志数据(即上述第一日志数据),若该第一日志数据中不包括之前的故障数据,则确定此处故障数据处理成功,并将处理成功的故障数据从故障信息列表中删除;若第一日志数据中仍包括之前的故障数据,则需再次从数据库中查询对应的解决方案。需要说明的是,对于同一种故障数据,若使用同一种解决方案对该故障数据进行预设次数(例如三次)的处理后,该设备仍然存在同样的故障数据时,则下一次从数据库中查询所返回的解决方案为除最相似的解决方案之外相似度最高的解决方案。
在上述故障数据的处理方法中,方法还包括如下步骤:在同一时刻确定多个设备存在故障数据的情况下,启动多个线程从数据库中查询与多个设备对应的故障数据对应的解决方案。
在本申请实施例中,为了保证故障数据的及时处理,则在同一时刻确定了多个故障数据时,启动多线程并行从数据库中查询对应的解决方案,并通过对应的线程将查询到的解决方案返回给对应的设备,从而提高查询的效率。
本申请实施例提供的故障数据的处理方法基于数据分析技术和智能监控技术,可应用于拥有众多主机、中间件、网络设备的系统,根据这些设备发送的故障数据将对应的解决方案返回给对应的故障设备,在众多系统主机场景下,拥有良好处理分析能力,提供优质的解决方案,具有强大的算力。
本申请实施例提供的故障数据的处理方法具有如下优点:1.人工成本低,运维效率高,传统的运维方式需要运维相关人员花费大量时间、精力,根据不同系统主机、中间件、网络设备出现的问题,进行跟踪排查处理。采用自动化运维后,不在需要消耗大量的时间来排查问题和处理错误,仅需要较短的时间来监控日志数据进行分析,自动化运维平台会进行故障自愈,完成故障的闭环处理。2.设计架构先进,自动化运维的监控告警系统是针对主机、中间件、网络设备等应用进行监控,具有丰富的数据采集能力,支持采集主机(系统基础性能、组件服务、数据库、日志等)、中间件、网络设备等数据源的监控指标,可精准探测互联网服务的可用性。3.分析处理效率更高效,对故障数据形成故障数据的解决方案知识库,为后续故障数据的处理提供历史处理模板,为故障的消除提供参考建议,使解决处理的效果更高效。
图3是根据本申请实施例的一种故障数据的处理装置的结构图,如图3所示,该装置包括:
获取模块302,用于获取运维系统中多类设备发送的日志数据,其中,多类设备至少包括主机设备、中间件设备和网络设备;
查询模块304,用于在日志数据为故障数据时,从数据库中查询与故障数据对应的解决方案;
返回模块306,用于将解决方案返回给与故障数据对应的设备。
在上述故障数据的处理装置中的获取模块中,获取多类设备发送的日志数据,具体包括如下过程:获取日志数据中携带的与设备的类型对应的标签信息;依据标签信息对日志数据进行分类,得到与多类设备对应的多类日志数据。
在上述故障数据的处理装置中的查询模块中,从数据库中查询与故障数据对应的解决方案,具体包括如下过程:确定故障数据所属的日志类型;从与日志类型对应的解决方案集合中查询与故障数据对应的解决方案。
在上述故障数据的处理装置中的查询模块中,从数据库中查询与故障数据对应的解决方案之前,该查询模块还用于在多类日志数据中存在多类设备的故障数据的情况下,获取多类设备的故障类型;按照预设映射关系确定与故障类型对应的故障等级;统计多类设备的故障等级;依据多类设备的故障等级确定运维系统的目标故障等级;在目标故障等级大于预设等级时,触发从数据库中查询与故障数据对应的解决方案。
在上述故障数据的处理装置中的查询模块中,从数据库中查询与故障数据对应的解决方案,具体包括如下过程:确定故障数据与数据库中存储的多个故障信息之间的相似度;将相似度最高的故障信息对应的解决方案确定为与故障数据对应的解决方案。
在上述故障数据的处理装置中的查询模块中,从数据库中查询与故障数据对应的解决方案,具体还包括如下过程:在数据库中不存在与故障数据对应的解决方案的情况下,将包含故障数据的告警信息发送给运维人员;接收运维人员对故障数据对应的设备的操作数据;将操作数据作为故障数据的解决方案存储在数据库中。
在上述故障数据的处理装置中的返回模块中,将解决方案返回给与故障数据对应的设备,具体包括如下过程:获取预设时间段内的多个目标故障数据,其中,多个目标故障数据为同类设备中具有相同故障类型的数据;将第一次从数据库中查询到的目标故障数据的解决方案确定为目标解决方案;将目标解决方案发送给多个目标故障数据中除第一次查询使用的目标故障数据之外的其他目标故障数据所对应的设备。
在上述故障数据的处理装置中的返回模块中,将解决方案返回给与故障数据对应的设备之后,该返回模块还用于获取经过故障处理之后的设备发送的第一日志数据;在第一日志数据中不包含故障数据的情况下,确定故障数据处理成功;将处理成功的故障数据从故障信息列表中删除。
在上述故障数据的处理装置中,该装置还包括启动模块308,该启动模块用于在同一时刻确定多个设备存在故障数据的情况下,启动多个线程从数据库中查询与多个设备对应的故障数据对应的解决方案。
需要说明的是,图3所示的故障数据的处理装置用于执行图2所示的故障数据的处理方法,因此上述故障数据的处理方法中的相关解释说明也适用于该故障数据的处理装置,此处不再赘述。
本申请实施例还提供了一种非易失性存储介质,该非易失性存储介质包括存储的计算机程序,其中,该非易失性存储介质所在设备通过运行计算机程序执行以下故障数据的处理方法:获取运维系统中多类设备发送的日志数据,其中,多类设备至少包括主机设备、中间件设备和网络设备;在日志数据为故障数据时,从数据库中查询与故障数据对应的解决方案;将解决方案返回给与故障数据对应的设备。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种故障数据的处理方法,其特征在于,包括:
获取运维系统中多类设备发送的日志数据,其中,所述多类设备至少包括主机设备、中间件设备和网络设备;
在所述日志数据为故障数据时,从数据库中查询与所述故障数据对应的解决方案;
将所述解决方案返回给与所述故障数据对应的设备。
2.根据权利要求1所述的方法,其特征在于,
获取多类设备发送的日志数据,包括:获取所述日志数据中携带的与设备的类型对应的标签信息;依据所述标签信息对所述日志数据进行分类,得到与所述多类设备对应的多类日志数据;
从数据库中查询与所述故障数据对应的解决方案,包括:确定所述故障数据所属的日志类型;从与所述日志类型对应的解决方案集合中查询与所述故障数据对应的解决方案。
3.根据权利要求2所述的方法,其特征在于,从数据库中查询与所述故障数据对应的解决方案之前,所述方法还包括:
在所述多类日志数据中存在多类设备的故障数据的情况下,获取所述多类设备的故障类型;按照预设映射关系确定与所述故障类型对应的故障等级;统计所述多类设备的故障等级;依据所述多类设备的故障等级确定所述运维系统的目标故障等级;在所述目标故障等级大于预设等级时,触发从所述数据库中查询与所述故障数据对应的解决方案。
4.根据权利要求1所述的方法,其特征在于,从数据库中查询与所述故障数据对应的解决方案,包括:
确定所述故障数据与所述数据库中存储的多个故障信息之间的相似度;
将所述相似度最高的故障信息对应的解决方案确定为与所述故障数据对应的解决方案。
5.根据权利要求1所述的方法,其特征在于,从数据库中查询与所述故障数据对应的解决方案,还包括:
在所述数据库中不存在与所述故障数据对应的解决方案的情况下,将包含所述故障数据的告警信息发送给运维人员;
接收所述运维人员对所述故障数据对应的设备的操作数据;
将所述操作数据作为所述故障数据的解决方案存储在所述数据库中。
6.根据权利要求1所述的方法,其特征在于,将所述解决方案返回给与所述故障数据对应的设备,包括:
获取预设时间段内的多个目标故障数据,其中,所述多个目标故障数据为同类设备中具有相同故障类型的数据;
将第一次从所述数据库中查询到的目标故障数据的解决方案确定为目标解决方案;
将所述目标解决方案发送给所述多个目标故障数据中除第一次查询使用的目标故障数据之外的其他目标故障数据所对应的设备。
7.根据权利要求1所述的方法,其特征在于,将所述解决方案返回给与所述故障数据对应的设备之后,所述方法还包括:
获取经过故障处理之后的设备发送的第一日志数据;
在所述第一日志数据中不包含所述故障数据的情况下,确定所述故障数据处理成功;
将处理成功的故障数据从故障信息列表中删除。
8.根据权利要求1至7中任意一项所述的方法,其特征在于,所述方法还包括:在同一时刻确定多个设备存在故障数据的情况下,启动多个线程从所述数据库中查询与多个设备对应的故障数据对应的解决方案。
9.一种故障数据的处理装置,其特征在于,包括:
获取模块,用于获取运维系统中多类设备发送的日志数据,其中,所述多类设备至少包括主机设备、中间件设备和网络设备;
查询模块,用于在所述日志数据为故障数据时,从数据库中查询与所述故障数据对应的解决方案;
返回模块,用于将所述解决方案返回给与所述故障数据对应的设备。
10.一种电子设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,与所述存储器连接,用于执行实现以下功能的程序指令:获取运维系统中多类设备发送的日志数据,其中,所述多类设备至少包括主机设备、中间件设备和网络设备;在所述日志数据为故障数据时,从数据库中查询与所述故障数据对应的解决方案;将所述解决方案返回给与所述故障数据对应的设备。
CN202211566505.5A 2022-12-07 2022-12-07 故障数据的处理方法、装置及电子设备 Pending CN115905338A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211566505.5A CN115905338A (zh) 2022-12-07 2022-12-07 故障数据的处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211566505.5A CN115905338A (zh) 2022-12-07 2022-12-07 故障数据的处理方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN115905338A true CN115905338A (zh) 2023-04-04

Family

ID=86495333

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211566505.5A Pending CN115905338A (zh) 2022-12-07 2022-12-07 故障数据的处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN115905338A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116107794A (zh) * 2023-04-10 2023-05-12 中国船舶集团有限公司第七一九研究所 一种舰船软件故障自动诊断方法、系统及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116107794A (zh) * 2023-04-10 2023-05-12 中国船舶集团有限公司第七一九研究所 一种舰船软件故障自动诊断方法、系统及存储介质

Similar Documents

Publication Publication Date Title
EP3557819B1 (en) Server failure detection method and system
CN110807085B (zh) 故障信息的查询方法及装置、存储介质、电子装置
CN110333995A (zh) 对工业设备运行状态进行监测的方法及装置
CN111782635B (zh) 数据处理方法和装置、存储介质和电子装置
CN113313280B (zh) 云平台的巡检方法、电子设备及非易失性存储介质
CN115905338A (zh) 故障数据的处理方法、装置及电子设备
CN111860667A (zh) 设备故障的确定方法及装置、存储介质、电子装置
CN113254254A (zh) 系统故障的根因定位方法、装置、存储介质及电子装置
CN113360722A (zh) 一种基于多维数据图谱的故障根因定位方法及系统
CN112507211A (zh) 消息推送方法、装置、存储介质及电子装置
CN112784025A (zh) 一种目标事件的确定方法和装置
CN110825609B (zh) 服务的测试方法、装置和系统
CN111506455A (zh) 服务发布结果的查验方法及装置
CN111124891A (zh) 接入状态的检测方法和装置、存储介质及电子装置
CN116302795A (zh) 一种基于人工智能的终端运维系统及方法
CN110851486A (zh) 数据存储方法及装置
CN115617750A (zh) 日志展示方法、装置、电子设备及非易失性存储介质
CN115438093A (zh) 一种电力通信设备故障判断方法与检测系统
CN113778831A (zh) 一种数据应用性能分析方法、装置、设备和介质
CN112818040A (zh) 一种结合大数据的用户行为分析方法及信息处理服务器
CN112165167A (zh) 一种智能变电站继电保护检修辅助系统及方法
CN118132399A (zh) 数据分析方法、系统、装置、电子设备、存储介质
CN115858502B (zh) 基于大数据分析的设备管理方法及装置
CN112910731B (zh) 计数器的确定方法及装置
CN114781674B (zh) 风电设备故障的定位方法及装置、存储介质、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination