CN115033419A - 一种实现硬件故障自愈的方法和系统 - Google Patents

一种实现硬件故障自愈的方法和系统 Download PDF

Info

Publication number
CN115033419A
CN115033419A CN202210964569.4A CN202210964569A CN115033419A CN 115033419 A CN115033419 A CN 115033419A CN 202210964569 A CN202210964569 A CN 202210964569A CN 115033419 A CN115033419 A CN 115033419A
Authority
CN
China
Prior art keywords
data
fault
server
hardware
healing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210964569.4A
Other languages
English (en)
Other versions
CN115033419B (zh
Inventor
沈广盼
张正锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Whale Cloud Technology Co Ltd
Original Assignee
Whale Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Whale Cloud Technology Co Ltd filed Critical Whale Cloud Technology Co Ltd
Priority to CN202210964569.4A priority Critical patent/CN115033419B/zh
Publication of CN115033419A publication Critical patent/CN115033419A/zh
Application granted granted Critical
Publication of CN115033419B publication Critical patent/CN115033419B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/028Capturing of monitoring data by filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本发明公开了一种实现硬件故障自愈的方法和系统,该方法包括:依次导入服务器数据和承载应用的相关数据;数据采集模块根据预先配置的策略和方法持续采集服务器的相关数据并保存到数据中心;故障发现模块对采集的服务器的相关数据进行数据分析,并过滤出其中的异常数据,再根据预先配置的硬件故障场景集智能诊断出是否需要通过故障自愈模块进行诊断、修复的故障;故障自愈模块对服务器上的应用进行下线,并对服务器进行故障诊断,对于硬件损坏类故障直接发起硬件维修流程,其他非硬件故障重启或重装系统进行故障自愈,在自愈完成后再上线应用。本发明通过能够提前发现系统可能存在的硬件故障,提升系统可靠性。

Description

一种实现硬件故障自愈的方法和系统
技术领域
本发明涉及硬件运维领域,具体来说,涉及一种实现硬件故障自愈的方法和系统。
背景技术
随着互联网通信技术的日新月异,企业的信息化建设逐渐深入,业务规模不断增加,业务系统组件关系日趋复杂。各类软硬件故障时有发生。因此故障的快速定位处理和预防,保障研发系统良好运行十分必要。
通常的业务系统故障包括业务异常、系统层异常和硬件故障。对于业务异常来说,例如进程意外终止,内存或者CPU使用率过高等问题,当前自动化运维可以通过采集相应指标进行监控,在故障发生时可以重启进程进行恢复。对于系统层异常和硬件故障来说,例如进程处于D状态的时间过长、主机磁盘故障导致的IO异常、系统异常崩溃、操作系统无法启动、硬件损坏等,其问题定位对人员知识要求较高,问题修复涉及的业务性操作多,整体处理效率较低。目前业务还没有相应的解决方案,因此需要一种硬件自愈的系统来提升硬件故障的诊断和修复效率。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种实现硬件故障自愈的方法和系统,以克服现有相关技术所存在的上述技术问题。
为此,本发明采用的具体技术方案如下:
根据本发明的一个方面,提供了一种实现硬件故障自愈的方法和系统,该实现硬件故障自愈的方法包括以下步骤:
S1、依次导入服务器数据和承载应用的相关数据,并将服务器数据和承载应用的相关数据保存至数据中心作为基础数据;
S2、数据采集模块根据预先配置的策略和方法持续采集服务器的相关数据并保存到数据中心;
S3、故障发现模块对采集的服务器的相关数据进行数据分析,并过滤出其中的异常数据,再根据预先配置的硬件故障场景集智能诊断出是否需要通过故障自愈模块进行诊断、修复的故障;
S4、故障自愈模块对服务器上的应用进行下线,并对服务器进行故障诊断,对于硬件损坏类故障直接发起硬件维修流程,其他非硬件故障重启或重装系统进行故障自愈,在自愈完成后再上线应用。
进一步的,所述依次导入服务器数据和承载应用的相关数据,并将服务器数据和承载应用的相关数据保存至数据中心作为基础数据包括以下步骤:
S11、将服务器和系统主机按照预先配置的连线方式进行物理连线;
S12、服务器开启带外管理功能,并配置IPMI管理地址、IPMI用户名及IPMI用户密码。
进一步的,所述数据采集模块根据预先配置的策略和方法持续采集服务器的相关数据并保存到数据中心还包括以下步骤:
数据采集模块根据服务器相关信息登陆服务器并安装Agent。
进一步的,所述故障自愈模块对服务器上的应用进行下线,并对服务器进行故障诊断,对于硬件损坏类故障直接发起硬件维修流程,其他非硬件故障重启或重装系统进行故障自愈,在自愈完成后再上线应用包括以下步骤:
S41、根据数据中心中的服务器应用下线脚本对故障服务器上的应用进行下线;
S42、通过带有外远程管理工具启动故障服务器并进入RAMOS;
S43、基于服务器型号匹配对应的硬件检测方法并进行硬件压测分析,确诊故障类型;
S44、针对故障处理方案进行自动处理;
S45、故障修复完成后,根据数据中心的服务器应用上线脚本对故障服务器进行应用上线。
进一步的,所述服务器数据和承载应用的相关数据包括服务器型号、IPMI管理地址、IPMI用户名、IPMI用户密码、操作系统IP、系统用户和密码、承载应用的配置信息及应用下线/上线信息。
进一步的,预先配置的策略包括按时间定期采集、按机器接入采集一次及服务器每次重启采集。
进一步的,预先配置的方法包括自定义脚本采集、进程采集、日志采集及机器数据采集。
进一步的,所述异常数据包括服务器网络异常、系统日志的kernel异常、服务器电源故障、系统日志磁盘IO错误及Wsar采集数据的指标异常。
进一步的,所述基于服务器型号匹配对应的硬件检测方法并进行硬件压测分析,确诊故障类型中的硬件压测工具包括内存测试工具Stream Benchmark、网络测试工具ifconfig、磁盘测试工具smartctl及磁盘测试工具fio。
根据本发明的另一方面,提供了一种实现硬件故障自愈的系统,该实现硬件故障自愈的系统包括:
数据中心,集成CMDB、关系型数据库和时序数据库,用于存储服务器资产信息、配置信息、服务器承载的应用数据和实时采集数据,并通过灵活的方式对其他模块提供数据服务;
数据采集模块,集成采集Agent,能够根据定义的策略和方法基于数据中心中的实例关系模型实现各种类型数据的采集;
故障发现模块,基于采集数据进行分析,过滤出其中的异常数据,根据预置的硬件故障场景集,智能诊断是否出现需要通过进行诊断、修复的故障;
故障自愈模块,集成RAMOS的故障自动诊断功能、操作系统自动化安装功能、各类型故障硬件自愈功能,实现对故障服务器进行故障诊断并根据故障类型进行自适应的修复。
本发明的有益效果为:
1、通过数据中心、数据采集和故障发现模块实现对复杂系统的自动化监控,能够提前发现系统可能存在的硬件故障,提升系统可靠性。
2、故障自愈模块集成RAMOS的故障自动诊断功能,从而将处理硬件问题的专家处理工具化,降低了对运维人员的技术能力要求。
3、故障自愈模块集成操作系统自动化安装功能和各类型硬件故障自愈功能,实现了硬件故障的自动化处理,规避人工手动处理误操作风险,同时提升了硬件故障处理效率。
4、本发明通过独创的故障自愈方法实现了硬件故障的自动修复,弥补了当前技术的空白。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种实现硬件故障自愈的方法的流程图;
图2是根据本发明实施例的一种实现硬件故障自愈的方法的物理连线示意图;
图3是根据本发明实施例的一种实现硬件故障自愈的方法的故障发现原理图;
图4是根据本发明实施例的一种实现硬件故障自愈的方法的自愈模块原理框图;
图5是根据本发明实施例的一种实现硬件故障自愈的系统的原理框图。
图中:
1、数据中心;2、数据采集模块;3、故障发现模块;4、故障自愈模块。
具体实施方式
为进一步说明各实施例,本发明提供有附图,这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理,配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点,图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
根据本发明的实施例,提供了一种实现硬件故障自愈的方法和系统。
现结合附图和具体实施方式对本发明进一步说明,如图1所示,根据本发明实施例的实现硬件故障自愈的方法和系统,该实现硬件故障自愈的方法包括以下步骤:
步骤S1、依次导入服务器数据和承载应用的相关数据,并将服务器数据和承载应用的相关数据保存至数据中心作为基础数据;
步骤S2、数据采集模块根据预先配置的策略和方法持续采集服务器的相关数据并保存到数据中心;
步骤S3、故障发现模块对采集的服务器的相关数据进行数据分析,并过滤出其中的异常数据,再根据预先配置的硬件故障场景集智能诊断出是否需要通过故障自愈模块进行诊断、修复的故障;
步骤S4、故障自愈模块对服务器上的应用进行下线,并对服务器进行故障诊断,对于硬件损坏类故障直接发起硬件维修流程,其他非硬件故障重启或重装系统进行故障自愈,在自愈完成后再上线应用。
如图2所示,在一个实施例中,所述依次导入服务器数据和承载应用的相关数据,并将服务器数据和承载应用的相关数据保存至数据中心作为基础数据包括以下步骤:
S11、将服务器和系统主机按照预先配置的连线方式进行物理连线;具体的,按照图2的连线方式进行物理连线;
S12、服务器开启带外管理功能,并配置IPMI管理地址、IPMI用户名及IPMI用户密码。
具体的,所述服务器数据和承载应用的相关数据包括服务器型号、IPMI管理地址、IPMI用户名、IPMI用户密码、操作系统IP、系统用户和密码、承载应用的配置信息及应用下线/上线信息。
采集模块预先配置了采集策略和方法以适应不同场景和类型。预先配置的策略包括按时间定期采集、按机器接入采集一次及服务器每次重启采集。预先配置的方法包括自定义脚本采集、进程采集、日志采集及机器数据采集。
此外,步骤S2中的采集模块根据配置定期采集相关数并保存到数据中心,采集模块会基于配置的策略和方法采集服务器硬件配置信息、操作系统详细信息、服务器运行数据信息等。
系统会根据服务器的操作系统IP地址和用户密码信息登陆服务器安装Agent(代理程序),然后采集模块根据配置的策略和方法去服务上进行数据的采集。
其中,需要采集服务器硬件配置信息、操作系统详细信息、服务器运行数据信息等信息。
具体的,采集的操作系统详细信息如下:操作系统基本配置、操作系统版本、语言、键盘类型、时区、时间、系统盘、安全策略、安装的软件,开启的服务功能、安装的软件包、服务器CPU性能模式、大页设置、系统配置、操作系统的文件系统划分、网络配置等。
采集的服务器运行数据信息如下:系统日志信息、Wsar采集数据、磁盘Smartctl数据、内存数据、CPU数据、网络数据等。
如图3所示,在一个实施例中,所述数据采集模块根据预先配置的策略和方法持续采集服务器的相关数据并保存到数据中心还包括以下步骤:
数据采集模块根据服务器相关信息登陆服务器并安装Agent。
具体的,故障发现模块中分析采集数据,过滤出其中的异常数据;有如下一些异常信息:服务器网络异常、系统日志的kernel异常、服务器电源故障、系统日志磁盘IO错误、Wsar采集数据的指标异常等。
故障发现模块预置有各类硬件故障数据,针对过滤出的异常进行智能诊断确任是否有需要自愈模块诊断、修复的故障发生。
在Wsar的磁盘io指标,如果发现磁盘qps=ws+rs<100(磁盘的每秒处理请求数=每秒完成的写设备次数+每秒完成的读设备次数,如果小于100),并且磁盘util>90(磁盘的繁忙度超过90%),并且此时系统没有出现内核异常错误,则诊断为可能硬盘故障,如果判断即该磁盘损坏会影响到系统层异常,则需要进行故障诊断和自愈修复。
如果出现最后一次系统日志数据内核异常,并且1分钟内服务器网络不通、则诊断为系统异常崩溃,需要进行故障诊断和自愈修复。
如图4所示,在一个实施例中,所述故障自愈模块对服务器上的应用进行下线,并对服务器进行故障诊断,对于硬件损坏类故障直接发起硬件维修流程,其他非硬件故障重启或重装系统进行故障自愈,在自愈完成后再上线应用包括以下步骤:
S41、根据数据中心中的服务器应用下线脚本对故障服务器上的应用进行下线;
具体的,需要根据数据中心数据,判断服务器承载的应用在剔除故障节点后能否满足使用需求,若满足,则根据预先配置的软件下线方案进行下线。
S42、通过带有外远程管理工具启动故障服务器并进入RAMOS;如果进入RAMOS失败,则直接走维修流程;
其中,自愈模块需要集成RAMOS的启动镜像文件;
具体的,在社区企业操作系统(在CentOS7.6)下准备内存操作系统(RAMOS)的根目录,并安装多种类型硬件故障诊断工具,如磁盘诊断工具、内存诊断工具StreamBenchMark,各类型服务器的特定硬件诊断工具。
把根目录打包成rootfs.tar.xz文件;
使用busybox工具打包成镜像initramfs.gz文件。
其中,自愈模块需要集成各类型服务器的带外远程管理工具,通过工具重启服务器进入RAMOS;
具体的,ipmitool -I lanplus -H IPMI_IP -U IPMI_User -P IPMI_PWDchassis bootparam set bootflag force_pxe;
ipmitool -I lanplus -H IPMI_IP -U IPMI_User -P IPMI_PWD chassispowerreset。
S43、基于服务器型号匹配对应的硬件检测方法并进行硬件压测分析,确诊故障类型;
其中,硬件压测分析需要根据服务器的型号匹配对应的硬件检测工具,根据预置的检测方案针对服务器的各项硬件配置进行基准测试并输出各项硬件的检测结果;然后根据故障发现模块的故障现象,结合硬件压测检测结果,确诊故障处理方案。
具体的,硬件压测工具有如下这些:内存测试工具Stream Benchmark、网络测试工具ifconfig、磁盘测试工具smartctl和fio等等。
具体的,使用如果硬件压测分析结果是硬件损坏类故障如内存条损坏、风扇损坏、磁盘损坏等并且与故障发现模块的故障现象匹配,则故障处理方案为维修,直接输出详细故障原因进行硬件维修;如果硬件压测分析结果是正常,并且故障发现的现象为无故宕机,则故障处理方案为重启系统;如果硬件压测分析结果是正常,并且故障发现的现象为系统异常,则故障处理方案为重装系统。
S44、针对故障处理方案进行自动处理;
其中,对于故障处理方案为维修的直接开启维修工单进行维修,维修完成后从S42步骤继续进行;对于故障处理方案为重启系统的直接执行reboot命令进行重启。
其中,对于故障处理方案为重装系统的,自愈模块需要集成操作系统自动化安装功能,通过数据中心的操作系统详细信息生成操作系统自动化安装所需要的Kickstart文件,然后通过kexec引导服务器到新内核直至完成操作系统的安装。
具体的,kexec -l vmlinuz --initrd=initrd.img --append="ksdevice=bootif
inst.stage2=http://IP/centos7.8/ text sshd ks=http://IP/ks/xxx.ks"。
S45、故障修复完成后,根据数据中心的服务器应用上线脚本对故障服务器进行应用上线。
具体的,上线脚本包括了服务承载软件的安装、启动并提供服务的一系列动作。
在一个实施例中,所述异常数据包括服务器网络异常、系统日志的kernel异常、服务器电源故障、系统日志磁盘IO错误及Wsar采集数据的指标异常。
在一个实施例中,所述硬件压测工具包括内存测试工具Stream Benchmark、网络测试工具ifconfig、磁盘测试工具smartctl及磁盘测试工具fio。
如图5所示,根据本发明的另一实施例,提供了一种实现硬件故障自愈的系统,该实现硬件故障自愈的系统包括:
数据中心1,集成CMDB、关系型数据库和时序数据库,用于存储服务器资产信息、配置信息、服务器承载的应用数据和实时采集数据,并通过灵活的方式对其他模块提供数据服务;
数据采集模块2,集成采集Agent,能够根据定义的策略和方法基于数据中心中的实例关系模型实现各种类型数据的采集;
故障发现模块3,基于采集数据进行分析,过滤出其中的异常数据,根据预置的硬件故障场景集,智能诊断是否出现需要通过进行诊断、修复的故障;
故障自愈模块4,集成RAMOS的故障自动诊断功能、操作系统自动化安装功能、各类型故障硬件自愈功能,实现对故障服务器进行故障诊断并根据故障类型进行自适应的修复。
术语解释:
Smartctl:smartctl工具用来实现操作系统上的ATA/SATA、SCSI/SAS、SSD 等物理设备的监控、分析及使用情况报告。SMART指的是对硬盘等设备的可靠性监控及预测磁盘可能存在的故障,并根据硬盘形态进行不同程度的自检。smartctl的版本可以兼容众多磁盘规范,例如:ACS-2、ATA8-ACS、ATA/ATAPI-7及更早期的一些磁盘标准。
CMDB:配置管理数据库(Configuration Management Database)是一个逻辑数据库,包含了配置项全生命周期的信息以及配置项之间的关系(包括物理关系、实时通信关系、非实时通信关系和依赖关系)。
Wsar:Wsar是我们自己开发的一个采集工具(类似于sar工具),主要用来收集服务器的系统信息(如cpu,io,mem,tcp等),以及应用数据(如haproxy、nginx、分布式存储等)。收集到的数据可以存储在磁盘上或者关系型数据库如mysql中,支持基于各种条件的历史信息查询,输出方式灵活多样。
PXE:Pre-boot Execution Environment是由Intel设计,可以使计算机通过网络启动的协议。协议分为client和server两端,PXE client在网卡的ROM中,当计算机启动时,BIOS把PXE client调入内存执行,并显示出命令菜单,经用户选择后,PXE client将放置在远端的操作系统通过网络下载到本地运行。
Kickstart:是一种无人值守的安装方式。它的工作原理是在安装过程中记录需要人工干预填写的各种参数,并生成一个名为ks.cfg的文件。如果在安装过程中出现要填写参数的情况,安装程序首先会去查找ks.cfg文件,根据此文件的参数自动应答。ks.cfg文件涵盖了安装过程中可能出现的所有需要填写的参数从而实现无人值守自动安装。
综上所述,借助于本发明的上述技术方案,将硬件问题的专家处理能力集成到工具中,降低了对运维人员的技术能力要求通过硬件故障的自动发现和自愈解决了当前只能人工手动处理的故障,提升了硬件故障处理效率。通过独创的故障自愈方法实现了硬件故障的自动修复,弥补了当前技术的空白。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种实现硬件故障自愈的方法,其特征在于,该实现硬件故障自愈的方法包括以下步骤:
S1、依次导入服务器数据和承载应用的相关数据,并将服务器数据和承载应用的相关数据保存至数据中心作为基础数据;
S2、数据采集模块根据预先配置的策略和方法持续采集服务器的相关数据并保存到数据中心;
S3、故障发现模块对采集的服务器的相关数据进行数据分析,并过滤出其中的异常数据,再根据预先配置的硬件故障场景集智能诊断出是否需要通过故障自愈模块进行诊断、修复的故障;
S4、故障自愈模块对服务器上的应用进行下线,并对服务器进行故障诊断,对于硬件损坏类故障直接发起硬件维修流程,其他非硬件故障重启或重装系统进行故障自愈,在自愈完成后再上线应用。
2.根据权利要求1所述的一种实现硬件故障自愈的方法,其特征在于,所述依次导入服务器数据和承载应用的相关数据,并将服务器数据和承载应用的相关数据保存至数据中心作为基础数据包括以下步骤:
S11、将服务器和系统主机按照预先配置的连线方式进行物理连线;
S12、服务器开启带外管理功能,并配置IPMI管理地址、IPMI用户名及IPMI用户密码。
3.根据权利要求1所述的一种实现硬件故障自愈的方法,其特征在于,所述数据采集模块根据预先配置的策略和方法持续采集服务器的相关数据并保存到数据中心还包括以下步骤:
数据采集模块根据服务器相关信息登陆服务器并安装Agent。
4.根据权利要求1所述的一种实现硬件故障自愈的方法,其特征在于,所述故障自愈模块对服务器上的应用进行下线,并对服务器进行故障诊断,对于硬件损坏类故障直接发起硬件维修流程,其他非硬件故障重启或重装系统进行故障自愈,在自愈完成后再上线应用包括以下步骤:
S41、根据数据中心中的服务器应用下线脚本对故障服务器上的应用进行下线;
S42、通过带有外远程管理工具启动故障服务器并进入RAMOS;
S43、基于服务器型号匹配对应的硬件检测方法并进行硬件压测分析,确诊故障类型;
S44、针对故障处理方案进行自动处理;
S45、故障修复完成后,根据数据中心的服务器应用上线脚本对故障服务器进行应用上线。
5.根据权利要求1所述的一种实现硬件故障自愈的方法,其特征在于,所述服务器数据和承载应用的相关数据包括服务器型号、IPMI管理地址、IPMI用户名、IPMI用户密码、操作系统IP、系统用户和密码、承载应用的配置信息及应用下线/上线信息。
6.根据权利要求1所述的一种实现硬件故障自愈的方法,其特征在于,预先配置的策略包括按时间定期采集、按机器接入采集一次及服务器每次重启采集。
7.根据权利要求1所述的一种实现硬件故障自愈的方法,其特征在于,预先配置的方法包括自定义脚本采集、进程采集、日志采集及机器数据采集。
8.根据权利要求1所述的一种实现硬件故障自愈的方法,其特征在于,所述异常数据包括服务器网络异常、系统日志的kernel异常、服务器电源故障、系统日志磁盘IO错误及Wsar采集数据的指标异常。
9.根据权利要求4所述的一种实现硬件故障自愈的方法,其特征在于,所述基于服务器型号匹配对应的硬件检测方法并进行硬件压测分析,确诊故障类型中的硬件压测工具包括内存测试工具Stream Benchmark、网络测试工具ifconfig、磁盘测试工具smartctl及磁盘测试工具fio。
10.一种实现硬件故障自愈的系统,用于实现权利要求1-9中任意一项所述的硬件故障自愈的方法,其特征在于,该实现硬件故障自愈的系统包括:
数据中心,集成CMDB、关系型数据库和时序数据库,用于存储服务器资产信息、配置信息、服务器承载的应用数据和实时采集数据,并通过灵活的方式对其他模块提供数据服务;
数据采集模块,集成采集Agent,能够根据定义的策略和方法基于数据中心中的实例关系模型实现各种类型数据的采集;
故障发现模块,基于采集数据进行分析,过滤出其中的异常数据,根据预置的硬件故障场景集,智能诊断是否出现需要通过进行诊断、修复的故障;
故障自愈模块,集成RAMOS的故障自动诊断功能、操作系统自动化安装功能、各类型故障硬件自愈功能,实现对故障服务器进行故障诊断并根据故障类型进行自适应的修复。
CN202210964569.4A 2022-08-12 2022-08-12 一种实现硬件故障自愈的方法和系统 Active CN115033419B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210964569.4A CN115033419B (zh) 2022-08-12 2022-08-12 一种实现硬件故障自愈的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210964569.4A CN115033419B (zh) 2022-08-12 2022-08-12 一种实现硬件故障自愈的方法和系统

Publications (2)

Publication Number Publication Date
CN115033419A true CN115033419A (zh) 2022-09-09
CN115033419B CN115033419B (zh) 2022-11-29

Family

ID=83130515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210964569.4A Active CN115033419B (zh) 2022-08-12 2022-08-12 一种实现硬件故障自愈的方法和系统

Country Status (1)

Country Link
CN (1) CN115033419B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115576736A (zh) * 2022-12-07 2023-01-06 北京铜牛信息科技股份有限公司 一种数据中心精细化智能监控方法
CN115858288A (zh) * 2022-12-05 2023-03-28 国网江苏省电力有限公司超高压分公司 一种基于Consul和JRPC的电力管理系统智能诊断方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110806955A (zh) * 2019-09-25 2020-02-18 苏州浪潮智能科技有限公司 一种基于python的服务器DC Cycle测试方法与系统
CN112799909A (zh) * 2021-01-26 2021-05-14 上海瀚银信息技术有限公司 一种服务器自动化管理系统及方法
CN114741255A (zh) * 2022-02-25 2022-07-12 北京月新时代科技股份有限公司 一种基于业务场景自动化执行的故障自愈技术

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110806955A (zh) * 2019-09-25 2020-02-18 苏州浪潮智能科技有限公司 一种基于python的服务器DC Cycle测试方法与系统
CN112799909A (zh) * 2021-01-26 2021-05-14 上海瀚银信息技术有限公司 一种服务器自动化管理系统及方法
CN114741255A (zh) * 2022-02-25 2022-07-12 北京月新时代科技股份有限公司 一种基于业务场景自动化执行的故障自愈技术

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115858288A (zh) * 2022-12-05 2023-03-28 国网江苏省电力有限公司超高压分公司 一种基于Consul和JRPC的电力管理系统智能诊断方法及系统
CN115576736A (zh) * 2022-12-07 2023-01-06 北京铜牛信息科技股份有限公司 一种数据中心精细化智能监控方法

Also Published As

Publication number Publication date
CN115033419B (zh) 2022-11-29

Similar Documents

Publication Publication Date Title
CN115033419B (zh) 一种实现硬件故障自愈的方法和系统
CN109032824B (zh) 数据库校验方法、装置、计算机设备和存储介质
US7293201B2 (en) System and method for active diagnosis and self healing of software systems
US9417865B2 (en) Determining when to update a package manager software
US6629267B1 (en) Method and system for reporting a program failure
US20220050765A1 (en) Method for processing logs in a computer system for events identified as abnormal and revealing solutions, electronic device, and cloud server
US10496495B2 (en) On demand remote diagnostics for hardware component failure and disk drive data recovery using embedded storage media
CN112769922B (zh) 一种微服务集群自启动的装置及方法
CN113553238A (zh) 云平台资源异常自动处理系统及方法
GB2604007A (en) Software upgrade stability recommendations
US9465684B1 (en) Managing logs of storage systems
US10938623B2 (en) Computing element failure identification mechanism
CN112269697B (zh) 一种设备存储性能测试方法、系统及相关装置
WO2020159548A1 (en) Upgrades based on analytics from multiple sources
CN113708986B (zh) 服务器监控装置、方法及计算机可读存储介质
CN114116330B (zh) 服务器性能测试方法、系统、终端及存储介质
EP3473035B1 (en) Application resilience system and method thereof for applications deployed on a cloud platform
CN114911578A (zh) 存储系统监控及故障收集方法、装置、终端及存储介质
CN115098378A (zh) 基于异常断点分类聚合日志片段的方法、装置
US20160026518A1 (en) Recovery program using diagnostic results
US9274905B1 (en) Configuration tests for computer system
CN110289977B (zh) 物流仓库系统的故障检测方法及系统、设备和存储介质
CN113656378A (zh) 一种服务器管理方法、装置、介质
CN110704230B (zh) 分布式多模块系统的诊断方法、系统、电子设备和介质
CN114785673A (zh) 多主控vsm环境下主备倒换时获取异常信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant