CN113946465A - 一种大数据的故障处理方法及其相关设备 - Google Patents

一种大数据的故障处理方法及其相关设备 Download PDF

Info

Publication number
CN113946465A
CN113946465A CN202111262983.2A CN202111262983A CN113946465A CN 113946465 A CN113946465 A CN 113946465A CN 202111262983 A CN202111262983 A CN 202111262983A CN 113946465 A CN113946465 A CN 113946465A
Authority
CN
China
Prior art keywords
fault
information
target equipment
target
equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111262983.2A
Other languages
English (en)
Inventor
潘鲁远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202111262983.2A priority Critical patent/CN113946465A/zh
Publication of CN113946465A publication Critical patent/CN113946465A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供一种大数据的故障处理方法及其相关设备,当检测到发生故障的目标设备时,获取与目标设备对应的告警信息;其中,告警信息至少包括目标设备的目标设备序列号;对告警信息进行分析,确定目标设备的故障位置;根据设备序列号与数据库之间的关联关系,以及从与目标设备序列号关联的各个数据库中查询目标设备的历史故障信息、目标设备的属性信息,以及目标设备的配置信息;获取硬件日志和系统层级日志;根据历史故障信息、属性信息、配置信息、硬件日志和系统层级日志,确定目标设备的故障原因;根据目标设备的故障位置和目标设备的故障原因,生成目标设备的故障信息。本申请能够快速定位故障位置,提高故障恢复效率。

Description

一种大数据的故障处理方法及其相关设备
技术领域
本发明涉及互联网技术领域,更具体地说,涉及一种大数据的故障处理方法及其相关设备。
背景技术
随着数据中心承载业务的飞速发展,数据中心管理的设备类型、数量越来越多,每天需要处理的告警、故障成倍增加。
现有的故障处理方式是,运维人员在接收到告警后到现场查看日志,确定故障具体原因,并在各种流程管理类系统中创建工单,后更换硬件设备故障部件,或采用隔离重启等方式处理软件故障。但是,采用人工处理故障的方式,不仅受制于运维人员的技术水平,如果当前运维人员对本领域不够熟悉或者技术水平较低,则无法快速定位发送故障的位置,即应急响应缓慢,影响故障恢复效率。
发明内容
有鉴于此,本申请提供一种大数据的故障处理方法及其相关设备,以解决现有技术中,由于当前运维人员对本领域不够熟悉或者技术水平较低,则无法快速定位发送故障的位置,即应急响应缓慢,影响故障恢复效率的问题。
本申请第一方面公开一种大数据的故障处理方法,应用于大数据集成平台,所述方法包括:
当检测到发生故障的目标设备时,获取与所述目标设备对应的告警信息;其中,所述告警信息至少包括所述目标设备的目标设备序列号;
对所述告警信息进行分析,确定所述目标设备的故障位置;
根据所述设备序列号与数据库之间的关联关系,以及从与所述目标设备序列号关联的各个数据库中查询所述目标设备的历史故障信息、所述目标设备的属性信息,以及所述目标设备的配置信息;
获取硬件日志和系统层级日志;
根据所述历史故障信息、所述属性信息、所述配置信息、所述硬件日志和所述系统层级日志,确定所述目标设备的故障原因;
根据所述目标设备的故障位置和所述目标设备的故障原因,生成所述目标设备的故障信息。
可选的,所述方法还包括:
获取多个数据项,所述多个数据项包括每个所述设备在机房中的属性信息、每个所述设备的配置信息、每个所述设备的运行状态和每个设备的历史故障信息;
针对每项所述数据项而言,根据所述数据项的数据特征,从多个所述数据库中确定与所述数据项匹配的数据库,并将所述数据项存储至与所述数据项匹配的所述数据库中;
针对每个所述设备而言,获取所述设备的设备序列号,并将所述设备的设备序列号与所述设备的各个所述数据项相关的所述数据库进行关联。
可选的,所述对所述告警信息进行分析,确定所述目标设备的故障位置,包括:
对所述告警信息进行分析,以从所述告警信息中提取关键字段;
根据所述关键字段,确定所述目标设备的故障位置。
可选的,所述获取硬件日志和系统层级日志,包括:
执行预设命令,从操作系统内部获取系统层级日志,以及通过执行预设管理命令获取硬件日志。
可选的,所述根据所述历史故障信息、所述属性信息、所述配置信息、所述硬件日志和所述系统层级日志,确定所述目标设备的故障原因,包括:
根据所述硬件日志和所述系统层级日志,确定所述目标设备的初始故障原因;
将所述初始故障原因结合所述属性信息、所述配置信息和所述历史故障信息进行综合分析,确定所述目标设备的故障原因。
可选的,所述方法还包括:
获取所述目标设备的上下游的多个其他设备的设备信息、所述目标设备当前运行的应用系统的系统信息、以及故障部件影响范围;其中所述故障部件为所述目标设备的故障位置对应的部件;
确定所述目标设备当前所处的集群模式,并根据所述集群模式、所述多个其他设备的设备信息、所述系统信息以及所述故障部件影响范围,从预先设置的多条维护建议中,确定并输出目标维护建议。
可选的,所述方法还包括:
根据所述故障部件影响范围判断所述目标设备的故障位置对应的部件是否需要进行故障处置操作;
若所述目标设备的故障位置对应的部件需要进行故障处置操作,则对所述目标设备的故障位置对应的部件进行相应的故障处置操作。
本申请第二方面公开一种大数据集成平台,包括:
告警信息获取单元,用于当检测到发生故障的目标设备时,获取与所述目标设备对应的告警信息;其中,所述告警信息至少包括所述目标设备的目标设备序列号;
告警信息分析单元,用于对所述告警信息进行分析,确定所述目标设备的故障位置;
查询单元,用于根据所述设备序列号与数据库之间的关联关系,以及从与所述目标设备序列号关联的各个数据库中查询所述目标设备的历史故障信息、所述目标设备的属性信息,以及所述目标设备的配置信息;
日志获取单元,用于获取硬件日志和系统层级日志;
故障原因确定单元,用于根据所述历史故障信息、所述属性信息、所述配置信息、所述硬件日志和所述系统层级日志,确定所述目标设备的故障原因;
故障信息生成单元,用于根据所述目标设备的故障位置和所述目标设备的故障原因,生成所述目标设备的故障信息。
本申请第三方面公开一种电子设备,所述电子设备包括处理器和存储器,所述存储器用于存储大数据的故障处理的程序代码和数据,所述处理器用于调用所述存储器中的程序指令执行如上述本申请第一方面公开的一种大数据的故障处理方法。
本申请第四方面公开一种存储介质,所述存储介质包括存储程序,其中,在所述程序运行时控制所述存储介质所在设备执行如上述本申请第一方面公开的一种大数据的故障处理方法。
本申请提供一种大数据的故障处理方法及其相关设备,应用于大数据集成平台,预先将各个的设备的各个数据项(历史故障信息、属性信息和配置信息)集成对应的数据库中,并通过建立设备的设备序列号与该设备对应的数据库之间的关联关系,进而在检测到发生故障的目标设备时,获取与目标设备对应的告警信息,并对该告警信息进行分析,确定目标设备上发生故障的故障位置;根据预先设置的设备序列号与数据库之间的对应关系,从与该告警信息中的设备序列号关联的各个数据库中查询目标设备的历史故障信息、目标设备的属性信息以及目标设备的配置信息,获取硬件日志和系统层级日志,根据所述历史故障信息、所述属性信息、所述配置信息、所述硬件日志和所述系统层级日志,确定所述目标设备的故障原因;最后根据所述目标设备的故障位置和所述目标设备的故障原因,生成所述目标设备的故障信息,整个过程无需运维人员参与,从而解决了现有技术中,由于当前运维人员对本领域不够熟悉或者技术水平较低,无法快速定位发送故障的位置,即应急响应缓慢,影响故障恢复效率的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种大数据的故障处理方法的流程示意图;
图2为本申请实施例提供的另一种大数据的故障处理方法的流程示意图;
图3为本申请实施例提供的一种大数据集成平台的结构示意图;
图4为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本发明公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本发明公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
大数据分析:是对大量、动态、持续的数据通过运用新系统、新模型的挖掘,从而获得具有洞察力和新价值的东西,并整理成能帮助用户决策的更有效的数据。
CMDB:配置管理数据库(Configuration Management Database),是指包含了配置项全生命周期的信息以及配置项之间的关系的逻辑数据库,主要用于存储与管理企业IT架构中设备的各种配置信息。
参见图1,示出了本发明实施例提供的一种大数据处理方法的流程示意图,该大数据处理方法应用于大数据集成平台,该大数据处理方法具体包括以下步骤:
S101:获取多个数据项,多个数据项包括每个设备在机房中的属性信息、每个设备的配置信息、每个设备的运行状态和每个设备的历史故障信息。
在本申请实施例中,预先在大数据集成平台上集成各个设备出厂商的数据接口,针对机房中的每个设备而言,可以通过该设备对应的设备出厂商的数据接口,从配置管理数据库(Configuration Management Database,CMDB)获取设备在机房中的属性信息、配置信息、运行状态以及历史故障信息;从事件管理中获取各个设备的运行状态;从监控管理中获取各个设备的历史故障信息。
需要说明的是,针对每个设备而言,该设备的属性信息、配置信息、运行状态和历史故障信息构成该设备的各个数据项。
在本申请实施例中,还可以通过MODBUS总线协议,或者CAN总线协议获取机房基础设施实时运行数据,以及机房内配套的强弱电及微环境相关的日常运行数据。
需要说明的是,机房基础设施实时运行数据可以包括不间断电源(Uninterruptible Power System,UPS)的电压电流、机房温湿度、漏水检测数据等数据。
机房内配套的强弱电及微环境相关的日常运行数据可以包括配电柜电压、功耗情况、机柜温湿度情况等数据。
属性信息可以包括对应的设备的属性数据、设备的配置数据、设备相应的监控数据、设备的操作系统、设备的IP地址和设备的主机名等数据。
S102:针对每项数据项而言,根据数据项的数据特征,从多个数据库中确定与数据项匹配的数据库,并将数据项存储至与数据项匹配的数据库中。
在本申请实施例中,可以预先根据每个数据项的数据特性设置合适存放该数据项的数据库。
例如,日志数据需要全文检索适合存放在ElasticSearch数据库,配置信息为静态属性适合存放在MySQL等关系型数据库,监控数据也可以存放在ElasticSearch数据库,各个系统采集的数据适合先存放在Redis内存,整合后再最终持久化到MySQL数据库中。
在具体执行步骤S102的过程中,在获取到多个数据项后,针对每个数据项而言,可以为该数据项进行大数据分析,确定该数据项的数据特性,进而可以根据该数据项的数据特性,从预先设置的多个数据库中,确定与该数据项匹配的数据库,进而将该数据项存储至对应的数据库中。
S103:针对每个设备而言,获取设备的设备序列号,并将设备的设备序列号与设备的各个数据项相关的数据库进行关联。
在具体执行步骤S103的过程中,在将获取到的各个数据项存储至对应的数据库后,针对每个设备而言,可以获取该设备对应的设备序列号,进而可以将该设备的设备序列号与该设备的各个数据项相关的数据库进行关联。
S104:当检测到发生故障的目标设备时,获取与目标设备对应的告警信息;其中,告警信息至少包括目标设备的目标设备序列号。
在具体执行步骤S104的过程中,可以对机房中的各个设备实时进行检测,当检测到各个设备中存在发生故障的设备时(为了便于区分麻将发生故障的设备称为目标设备),获取与该目标设备对应的告警信息。
其中,告警信息可以包括目标设备上发生故障的故障位置和该设备的设备序列号。
S105:对告警信息进行分析,确定目标设备的故障位置。
在具体执行步骤S105的过程中,在获取目标设备对应的告警信息后,对获取到告警信息进行分析,从告警信息中提取关键字段,并根据关键字段确定目标设备上发生故障的故障位置。
需要说明的是,告警信息中关键字段可以为“cpqDa7PhyDrvStatusChange”,根据该关键字段可以判断出设备上发生故障的故障位置。
S106:根据设备序列号与数据库之间的关联关系,以及从与目标设备序列号关联的各个数据库中查询目标设备的历史故障信息、目标设备的属性信息,以及目标设备的配置信息。
在具体执行步骤S106的过程中,可以根据预先设置的设备序列号与数据库之间的对应关系,确定出与目标设备序列号存在关联关系的多个数据库,并从与目标设备序列号关联的各个数据库中,查询并获取目标设备的历史故障信息、目标设备的属性信息,以及目标设备的配置信息。
S107:获取硬件日志和系统层级日志。
在具体执行步骤S107的过程中,可以通过预设命令从操作系统内部获取系统层级日志,例如,通过“errpt”命令从操作系统内部获取系统层级日志。
通过向目标设备的管理接口发送预设管理命令,获取设备对应的硬件日志。
需要说明的是,目标设备的管理接口可以为iLO接口、MGMT接口。
S108:根据历史故障信息、属性信息、配置信息、硬件日志和系统层级日志,确定目标设备的故障原因。
在具体执行步骤S108的过程中,利用获取到的硬件日志和系统层级日志对目标设备、目标设备上运行的应用系统、目标设备当前所处的集群模式,以及目标设备的上下游的各个其他设备进行大数据分析,确定出目标设备的初始故障原因;将初始故障原因结合目标设备的属性信息、配置信息,以及历史故障进行综合分析,确定目标设备最终的故障原因。
S109:根据目标设备的故障位置和目标设备的故障原因,生成目标设备的故障信息。
在具体执行步骤S109的过程中,在确定出目标设备的故障原因后,可以根据确定出的故障原因和目标设备的故障位置,生成目标设备的故障信息。
在本申请实施例中,在生成目标设备的故障信息后,可以输出目标设备的故障信息,以便运维人员可以根据目标设备的故障信息快速确定目标上发生故障的位置,以及发生故障的原因。
本申请提供一种大数据的故障处理方法、装置、电子设备及存储介质,应用于大数据集成平台,预先将各个的设备的各个数据项(历史故障信息、属性信息和配置信息)集成对应的数据库中,并通过建立设备的设备序列号与该设备对应的数据库之间的关联关系,进而在检测到发生故障的目标设备时,获取与目标设备对应的告警信息,并对该告警信息进行分析,确定目标设备上发生故障的故障位置;根据预先设置的设备序列号与数据库之间的对应关系,从与该告警信息中的设备序列号关联的各个数据库中查询目标设备的历史故障信息、目标设备的属性信息以及目标设备的配置信息,获取硬件日志和系统层级日志,根据历史故障信息、属性信息、配置信息、硬件日志和系统层级日志,确定目标设备的故障原因;最后根据目标设备的故障位置和目标设备的故障原因,生成目标设备的故障信息,整个过程无需运维人员参与,从而解决了现有技术中,由于当前运维人员对本领域不够熟悉或者技术水平较低,无法快速定位发送故障的位置,即应急响应缓慢,影响故障恢复效率的问题。
在上述本申请实施例公开的大数据处理方法的技术上,本申请公开的大数据处理方法还包括以下步骤,如图2所示,具体包括以下步骤:
S201:获取目标设备的上下游的多个其他设备的设备信息、目标设备当前运行的应用系统的系统信息、以及故障部件影响范围;其中故障部件为目标设备的故障位置对应的部件。
S202:确定目标设备当前所处的集群模式,并根据集群模式、多个其他设备的设备信息、系统信息以及故障部件影响范围,从预先设置的多条维护建议中,确定并输出目标维护建议。
在本申请实施例中,运维人员可以对各个设备的历史故障信息、历史发生故障的设备所处的集群模式、历史发生故障的设备的上下游设备的设备信息、历史故障信息中的历史故障位置和历史故障位置进行分析,设置相应的多个条维护建议。
在本申请实施例中,在获取的目标设备的上下游的多个其他设备的设备信息、目标设备当前运行的应用系统的系统信息,以及目标设备的故障位置对应的部件发生故障时产生影响的故障部件影响范围后,确定目标设备当前所处的集群模式;进而对集群模式、多个其他设备的设备信息、系统信息以及故障部件影响范围进行分析,从预先设置的多条维护建议中确定出相应的目标维护建议。
在本申请实施例中,在输出目标设备的故障信息的同时,可以一起输出相应的目标维护建议,以便运维人员可以在根据目标设备的故障信息快速确定目标上发生故障的位置,以及发生故障的原因后,根据目标维护建议快速对发生故障的部件进行维护。
S203:根据故障部件影响范围判断目标设备的故障位置对应的部件是否需要进行故障处置操作。
在本申请实施例中,还可以根据获取到的故障部件影响范围判断目标设备的故障位置对应的部件是否需要进行故障处理操作。若目标设备的故障位置对应的部件不需要进行故障处置操作,则可以结束当前流程;若目标设备的故障位置对应的部件需要进行故障处置操作,执行步骤S204。
S204:对目标设备的故障位置对应的部件进行相应的故障处置操作。
在本申请实施例中,如果目标设备的故障位置对应的部件需要进行故障处置操作,则对目标设备的故障位置对应的部件进行相应的故障处置操作。
在本申请实施例中,故障处理操作可以为重启、隔离、切换等等。可以根据实际应用进行设置,本申请实施例不加以限定。
例如,如果发生故障的部件为设备的板卡,且有冗余,则可以确定目标设备的故障位置对应的部件需要进行故障处置操作,自动将该设备的本板卡隔离,以便将流量切换到另一个链路,以维持设备的正常运行。
与上述本申请实施例公开的大数据的故障处理方法相对应,如图3所示,本申请实施例还提供了一种大数据集成平台,该大数据集成平台包括:
告警信息获取单元31,用于当检测到发生故障的目标设备时,获取与目标设备对应的告警信息;其中,告警信息至少包括目标设备的目标设备序列号;
告警信息分析单元32,用于对告警信息进行分析,确定目标设备的故障位置;
查询单元33,用于根据设备序列号与数据库之间的关联关系,以及从与目标设备序列号关联的各个数据库中查询目标设备的历史故障信息、目标设备的属性信息,以及目标设备的配置信息;
日志获取单元34,用于获取硬件日志和系统层级日志;
故障原因确定单元35,用于根据历史故障信息、属性信息、配置信息、硬件日志和系统层级日志,确定目标设备的故障原因;
故障信息生成单元36,用于根据目标设备的故障位置和目标设备的故障原因,生成目标设备的故障信息。
上述本发明实施例公开的大数据处理平台中各个单元具体的原理和执行过程,与上述本发明实施例图1公开的大数据的故障处理方法相同,可参见上述本发明实施例图1公开的大数据的故障处理方法中相应的部分,这里不再进行赘述。
本申请提供一种大数据集成平台,可以预先将各个的设备的各个数据项(历史故障信息、属性信息和配置信息)集成对应的数据库中,并通过建立设备的设备序列号与该设备对应的数据库之间的关联关系,进而在检测到发生故障的目标设备时,获取与目标设备对应的告警信息,并对该告警信息进行分析,确定目标设备上发生故障的故障位置;根据预先设置的设备序列号与数据库之间的对应关系,从与该告警信息中的设备序列号关联的各个数据库中查询目标设备的历史故障信息、目标设备的属性信息以及目标设备的配置信息,获取硬件日志和系统层级日志,根据历史故障信息、属性信息、配置信息、硬件日志和系统层级日志,确定目标设备的故障原因;最后根据目标设备的故障位置和目标设备的故障原因,生成目标设备的故障信息,整个过程无需运维人员参与,从而解决了现有技术中,由于当前运维人员对本领域不够熟悉或者技术水平较低,无法快速定位发送故障的位置,即应急响应缓慢,影响故障恢复效率的问题。
进一步的,本申请提供的大数据集成平台,还包括:
实时数据采集单元,用于获取多个数据项,多个数据项包括每个设备在机房中的属性信息、每个设备的配置信息、每个设备的运行状态和每个设备的历史故障信息;
存储单元,用于针对每项数据项而言,根据数据项的数据特征,从多个数据库中确定与数据项匹配的数据库,并将数据项存储至与数据项匹配的数据库中;
关联单元,用于针对每个设备而言,获取设备的设备序列号,并将设备的设备序列号与设备的各个数据项相关的数据库进行关联。
可选的,告警信息分析单元,包括:
提取单元,用于对告警信息进行分析,以从告警信息中提取关键字段;
故障位置确定单元,用于根据关键字段,确定目标设备的故障位置。
可选的,日志获取单元,包括:
日志获取子单元,用于执行预设命令,从操作系统内部获取系统层级日志,以及通过执行预设管理命令获取硬件日志。
可选的,故障原因确定单元,包括:
初始故障原因确定单元,用于根据硬件日志和系统层级日志,确定目标设备的初始故障原因;
故障原因确定子单元,用于将初始故障原因结合属性信息、配置信息和历史故障信息进行综合分析,确定目标设备的故障原因。
进一步的,本申请提供的大数据集成平台,还包括:
获取单元,用于获取目标设备的上下游的多个其他设备的设备信息、目标设备当前运行的应用系统的系统信息、以及故障部件影响范围;其中故障部件为目标设备的故障位置对应的部件;
维护建议确定单元,用于确定目标设备当前所处的集群模式,并根据集群模式、多个其他设备的设备信息、系统信息以及故障部件影响范围,从预先设置的多条维护建议中,确定并输出目标维护建议。
进一步的,本申请提供的大数据集成平台,还包括:
判断单元,用于根据故障部件影响范围判断目标设备的故障位置对应的部件是否需要进行故障处置操作;
操作单元,用于若目标设备的故障位置对应的部件需要进行故障处置操作,则对目标设备的故障位置对应的部件进行相应的故障处置操作。
本申请实施例提供了一种电子设备,如图4所示,电子设备包括处理器401和存储器402,存储器402用于存储大数据的故障处理的程序代码和数据,处理器401用于调用存储器中的程序指令执行实现如上述实施例中大数据的故障处理方法所示的步骤。
本申请实施例提供了一种存储介质,存储介质包括存储程序,其中,在程序运行时控制存储介质所在设备执行上述实施例示出的大数据的故障处理方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种大数据的故障处理方法,其特征在于,应用于大数据集成平台,所述方法包括:
当检测到发生故障的目标设备时,获取与所述目标设备对应的告警信息;其中,所述告警信息至少包括所述目标设备的目标设备序列号;
对所述告警信息进行分析,确定所述目标设备的故障位置;
根据所述设备序列号与数据库之间的关联关系,以及从与所述目标设备序列号关联的各个数据库中查询所述目标设备的历史故障信息、所述目标设备的属性信息,以及所述目标设备的配置信息;
获取硬件日志和系统层级日志;
根据所述历史故障信息、所述属性信息、所述配置信息、所述硬件日志和所述系统层级日志,确定所述目标设备的故障原因;
根据所述目标设备的故障位置和所述目标设备的故障原因,生成所述目标设备的故障信息。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取多个数据项,所述多个数据项包括每个所述设备在机房中的属性信息、每个所述设备的配置信息、每个所述设备的运行状态和每个设备的历史故障信息;
针对每项所述数据项而言,根据所述数据项的数据特征,从多个所述数据库中确定与所述数据项匹配的数据库,并将所述数据项存储至与所述数据项匹配的所述数据库中;
针对每个所述设备而言,获取所述设备的设备序列号,并将所述设备的设备序列号与所述设备的各个所述数据项相关的所述数据库进行关联。
3.根据权利要求1所述的方法,其特征在于,所述对所述告警信息进行分析,确定所述目标设备的故障位置,包括:
对所述告警信息进行分析,以从所述告警信息中提取关键字段;
根据所述关键字段,确定所述目标设备的故障位置。
4.根据权利要求1所述的方法,其特征在于,所述获取硬件日志和系统层级日志,包括:
执行预设命令,从操作系统内部获取系统层级日志,以及通过执行预设管理命令获取硬件日志。
5.根据权利要求1所述的方法,其特征在于,所述根据所述历史故障信息、所述属性信息、所述配置信息、所述硬件日志和所述系统层级日志,确定所述目标设备的故障原因,包括:
根据所述硬件日志和所述系统层级日志,确定所述目标设备的初始故障原因;
将所述初始故障原因结合所述属性信息、所述配置信息和所述历史故障信息进行综合分析,确定所述目标设备的故障原因。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述目标设备的上下游的多个其他设备的设备信息、所述目标设备当前运行的应用系统的系统信息、以及故障部件影响范围;其中所述故障部件为所述目标设备的故障位置对应的部件;
确定所述目标设备当前所处的集群模式,并根据所述集群模式、所述多个其他设备的设备信息、所述系统信息以及所述故障部件影响范围,从预先设置的多条维护建议中,确定并输出目标维护建议。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
根据所述故障部件影响范围判断所述目标设备的故障位置对应的部件是否需要进行故障处置操作;
若所述目标设备的故障位置对应的部件需要进行故障处置操作,则对所述目标设备的故障位置对应的部件进行相应的故障处置操作。
8.一种大数据集成平台,其特征在于,包括:
告警信息获取单元,用于当检测到发生故障的目标设备时,获取与所述目标设备对应的告警信息;其中,所述告警信息至少包括所述目标设备的目标设备序列号;
告警信息分析单元,用于对所述告警信息进行分析,确定所述目标设备的故障位置;
查询单元,用于根据所述设备序列号与数据库之间的关联关系,以及从与所述目标设备序列号关联的各个数据库中查询所述目标设备的历史故障信息、所述目标设备的属性信息,以及所述目标设备的配置信息;
日志获取单元,用于获取硬件日志和系统层级日志;
故障原因确定单元,用于根据所述历史故障信息、所述属性信息、所述配置信息、所述硬件日志和所述系统层级日志,确定所述目标设备的故障原因;
故障信息生成单元,用于根据所述目标设备的故障位置和所述目标设备的故障原因,生成所述目标设备的故障信息。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器用于存储大数据的故障处理的程序代码和数据,所述处理器用于调用所述存储器中的程序指令执行如权利要求1-7中任一所述的一种大数据的故障处理方法。
10.一种存储介质,其特征在于,所述存储介质包括存储程序,其中,在所述程序运行时控制所述存储介质所在设备执行如权利要求1-7中任一所述的一种大数据的故障处理方法。
CN202111262983.2A 2021-10-28 2021-10-28 一种大数据的故障处理方法及其相关设备 Pending CN113946465A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111262983.2A CN113946465A (zh) 2021-10-28 2021-10-28 一种大数据的故障处理方法及其相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111262983.2A CN113946465A (zh) 2021-10-28 2021-10-28 一种大数据的故障处理方法及其相关设备

Publications (1)

Publication Number Publication Date
CN113946465A true CN113946465A (zh) 2022-01-18

Family

ID=79336907

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111262983.2A Pending CN113946465A (zh) 2021-10-28 2021-10-28 一种大数据的故障处理方法及其相关设备

Country Status (1)

Country Link
CN (1) CN113946465A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114996119A (zh) * 2022-04-20 2022-09-02 中国工商银行股份有限公司 故障诊断方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114996119A (zh) * 2022-04-20 2022-09-02 中国工商银行股份有限公司 故障诊断方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN102937930B (zh) 应用程序监控系统及方法
CN107995049B (zh) 电力安全区跨区同步故障监测方法、装置和系统
CN104252500B (zh) 一种数据库管理平台的故障修复方法和装置
CN109495308A (zh) 一种基于管理信息系统的自动化运维系统
CN112631913B (zh) 应用程序的运行故障监控方法、装置、设备和存储介质
CN103607297A (zh) 一种计算机集群系统的故障处理方法
CN110232006B (zh) 设备告警方法及相关装置
CN112787855B (zh) 一种面向广域分布式服务的主备管理系统及管理方法
WO2016188100A1 (zh) 信息系统故障场景信息收集方法及系统
CN110851320A (zh) 一种服务器宕机监管方法、系统、终端及存储介质
US9916331B2 (en) Method and device for automatically processing static test data of rail transit vehicle
CN111897671A (zh) 故障恢复方法、计算机设备及存储介质
CN112506702B (zh) 数据中心容灾方法、装置、设备及存储介质
CN113672456B (zh) 应用平台的模块化自监听方法、系统、终端及存储介质
CN112529223A (zh) 一种设备故障报修方法、装置、服务器及储存介质
CN111767173A (zh) 网络设备数据处理方法、装置、计算机设备和存储介质
CN112799909A (zh) 一种服务器自动化管理系统及方法
CN108809729A (zh) 一种分布式系统中ctdb服务的故障处理方法及装置
CN108959037A (zh) 一种数据中心自动巡检方法及装置
CN113946465A (zh) 一种大数据的故障处理方法及其相关设备
CN113487182B (zh) 设备健康状态评估方法、装置、计算机设备和介质
CN111865673A (zh) 一种自动化故障管理方法、装置及系统
CN106982141A (zh) Weblogic实例监控方法及装置
CN111062503B (zh) 一种电网监控告警处理方法、系统、终端及存储介质
CN112541011A (zh) 基于rpa和ai的电网终端故障处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination