CN107026760A - 一种故障修复方法及监控节点 - Google Patents

一种故障修复方法及监控节点 Download PDF

Info

Publication number
CN107026760A
CN107026760A CN201710303912.XA CN201710303912A CN107026760A CN 107026760 A CN107026760 A CN 107026760A CN 201710303912 A CN201710303912 A CN 201710303912A CN 107026760 A CN107026760 A CN 107026760A
Authority
CN
China
Prior art keywords
node
failure
running environment
malfunctioning node
image file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710303912.XA
Other languages
English (en)
Other versions
CN107026760B (zh
Inventor
尹正军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201710303912.XA priority Critical patent/CN107026760B/zh
Publication of CN107026760A publication Critical patent/CN107026760A/zh
Application granted granted Critical
Publication of CN107026760B publication Critical patent/CN107026760B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种故障修复方法及监控节点,在获取故障节点的运行环境信息后,基于故障节点的运行环境信息,模拟故障节点的运行环境,在模拟的运行环境中重现故障节点的故障,以得到故障对应的故障修复方案,这样在服务器集群出现故障时,可以在其他设备如远端节点上模拟服务器集群中的故障,得到故障对应的故障修复方案,进而当故障发生时,对服务器集群不必实施复杂的在线调试操作,降低对服务器集群的性能和数据完整性的影响。且由于是模拟故障节点的运行环境,在模拟的运行环境中可通过人工干预和在线调试等方式来快速定位故障,并在得到故障修复方案后可快速推送到故障节点,达到快速修复的目的。

Description

一种故障修复方法及监控节点
技术领域
本发明属于设备故障处理技术领域,更具体的说,尤其涉及一种故障修复方法及监控节点。
背景技术
随着云时代的来临,大数据也吸引了越来越多的关注,所谓大数据是大量非结构化数据和半结构化数据的集合,这些数据在下载到数据库用于分析时会花费大量时间,因此为了有效处理大数据,需要为大数据构件专有的服务器集群。
其中服务器集群将多个服务器集中在一起处理同一种服务,这样服务器集群就可以利用多个服务器进行服务的并行处理以获得高效的处理能力,但是在基于服务器集群处理大数据时,会出现服务器集群中组件故障情况,比如:组件依赖的文件损坏;与组件关联的组件配置变更;资源更新配置不合理以及组件版本升级错误等,而在这种情况下,若对服务器集群进行在线调试诊断,会影响服务器集群的处理性能,甚至会对数据造成影响。
为此需要一种故障修复方法及设备,在模拟环境中得到故障修复方案,再触发真实环境中的故障节点基于故障修复方案进行故障修复。
发明内容
有鉴于此,本发明的目的在于提供一种故障修复方法及监控节点,用于在模拟的运行环境中重现故障节点的故障,以在模拟的运行环境中得到故障修复方案。具体的,技术方案如下:
本发明提供一种故障修复方法,所述方法包括:
获取故障节点的运行环境信息;
基于所述故障节点的运行环境信息,模拟所述故障节点的运行环境;
在模拟的运行环境中重现所述故障节点的故障,以得到所述故障对应的故障修复方案。
优选的,所述获取故障节点的运行环境信息包括:
向所述故障节点发送镜像指令;
获取所述故障节点根据所述镜像指令采集到的镜像文件,所述镜像文件包含所述故障节点的运行环境信息。
优选的,所述获取故障节点的运行环境信息,还包括:
在向所述故障节点发送镜像指令之前,为节点所处集群环境构建基础镜像文件;
通过所述基础镜像文件在节点中创建第一容器,并通过所述第一容器配置所述集群环境依赖的参数,得到所述集群环境的专属镜像文件;
所述镜像指令包括:容器运行指令、运行环境记录指令和镜像返回指令,所述容器运行指令用于控制所述故障节点运行所述第一容器;所述运行环境记录指令用于控制所述故障节点通过所述第一容器记录所述故障节点的运行环境信息;所述镜像返回指令用于控制所述故障节点通过所述故障节点的运行环境信息更新所述集群环境的专属镜像文件中故障节点对应的专属镜像文件,得到更新后的镜像文件并将更新后的镜像文件返回。
优选的,所述在模拟的运行环境中重现所述故障节点的故障,以得到所述故障对应的故障修复方案包括:
在模拟的运行环境中依据所述镜像文件创建第二容器,并在所述模拟的运行环境中运行所述第二容器,从而重现所述故障节点的故障;
对所述故障节点的故障进行分析,得到所述故障对应的故障修复方案。
优选的,所述方法还包括:通过节点中的采集单元获取所述节点的运行状态信息;
当所述节点的运行状态信息满足预设条件时,确定所述节点为故障节点。
本发明还提供一种监控节点,所述监控节点包括:处理器,所述处理器用于获取故障节点的运行环境信息,基于所述故障节点的运行环境信息,模拟所述故障节点的运行环境,并在模拟的运行环境中重现所述故障节点的故障,以得到所述故障对应的故障修复方案。
优选的,所述监控节点还包括:发送器,用于向所述故障节点发送镜像指令;
所述处理器,用于获取所述故障节点根据所述镜像指令采集到的镜像文件,所述镜像文件包含所述故障节点的运行环境信息。
优选的,所述处理器还用于在所述发送器向所述故障节点发送镜像指令之前,为节点所处集群环境构建基础镜像文件,通过所述基础镜像文件在节点中创建第一容器,并通过所述第一容器配置所述集群环境依赖的参数,得到所述集群环境的专属镜像文件;
所述镜像指令包括:容器运行指令、运行环境记录指令和镜像返回指令,所述容器运行指令用于控制所述故障节点运行所述第一容器;所述运行环境记录指令用于控制所述故障节点通过所述第一容器记录所述故障节点的运行环境信息;所述镜像返回指令用于控制所述故障节点通过所述故障节点的运行环境信息更新所述集群环境的专属镜像文件中故障节点对应的专属镜像文件,得到更新后的镜像文件并将更新后的镜像文件返回。
优选的,所述处理器在模拟的运行环境中重现所述故障节点的故障,以得到所述故障对应的故障修复方案包括:在模拟的运行环境中依据所述镜像文件创建第二容器,并在所述模拟的运行环境中运行所述第二容器,从而重现所述故障节点的故障,并对所述故障节点的故障进行分析,得到所述故障对应的故障修复方案。
优选的,所述处理器还用于通过节点中的采集单元获取所述节点的运行状态信息,当所述节点的运行状态信息满足预设条件时,确定所述节点为故障节点。
与现有技术相比,本发明提供的上述技术方案具有如下优点:
借由上述技术方案,在获取故障节点的运行环境信息后,基于故障节点的运行环境信息,模拟故障节点的运行环境,在模拟的运行环境中重现故障节点的故障,以得到故障对应的故障修复方案,这样在服务器集群出现故障时,可以在其他设备如远端节点上模拟服务器集群中的故障,得到故障对应的故障修复方案,进而当故障发生时,对服务器集群不必实施复杂的在线调试操作,降低对服务器集群的性能和数据完整性的影响。且由于是模拟故障节点的运行环境,在模拟的运行环境中可通过人工干预和在线调试等方式来快速定位故障,并在得到故障修复方案后可快速推送到故障节点,达到快速修复的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的故障修复方法的实现系统的架构图;
图2是本发明实施例提供的故障修复方法的流程图;
图3是本发明实施例提供的获取运行环境信息的信令交互图;
图4是本发明实施例提供的故障修复装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的故障修复方法的实现系统的架构图,参照图1,该实现系统可以包括:监控节点10、镜像数据库20和安装包数据库30。
其中监控节点10,用于对服务器集群40中的各个节点,如构成服务器集群40的服务器、服务器中的组件、服务器中相关联的组件或者服务器之间相关联的组件等等进行监控,以确定各个节点是否是故障节点(即运行状态处于故障状态中的节点),在确定节点时故障节点后通过监控节点10来重现故障节点的运行环境,这样就可以脱离服务器集群40的运行在监控节点上进行在线调试,并且在线调试过程中还可以进行人工干预以快速定位故障,得到故障修复方案。
在本发明实施例中,监控节点10是指硬件配置、服务部署情况和服务器集群40类似,也就是说监控节点10是位于产线环境中的服务器集群40的“镜像”集群(服务、环境等等均为镜像),方便后续位于产线环境中的服务器集群40出现故障时,在该“镜像”集群中进行快速方针模拟、问题定位和快速修复。其中监控节点可以是一个监控集群,其与服务器集群不在同一个局域网中,而为了加快两个集群之间的通信,服务器集群40和监控节点10之间可以通过专线传输,例如配置服务器集群40和监控节点10中的多个物理机上运行的Dcoker容器可以相互通信,Docker是一个基于LXC(Linux Container的简写,提供一种内核虚拟化技术)的高级容器引擎。
镜像数据库20,用于存储构建好的镜像文件,所述镜像文件用于记录服务器集群40中各个节点、组件等等的运行环境信息等,例如节点运行的操作系统、节点中组件的配置文件、软件上下文等等,使得监控节点10可以根据镜像文件来重现故障或者根据镜像文件来模拟故障节点的运行环境。
安装包数据库30,用于存储组件的各种版本的安装包,这样便于监控节点10获取服务器集群40已安装的各种安装包,使得监控节点10的环境类似服务器集群40的环境。
对于上述镜像数据库20和安装包数据库30来说,镜像数据库20和安装包数据库30可以位于监控节点10或者服务器集群40中,且监控节点10和服务器集群40可以共享镜像数据库20和安装包数据库30。
本发明实施例提供的故障修复方法主要通过图1所示系统架构中的监控节点实现,下面站在监控节点的角度,对本发明实施例提供的故障修复方法进行介绍。图2为本发明实施例提供的故障修复方法的流程图,该方法可应用于监控节点中,所述故障修复方法可以包括以下步骤:
201:获取故障节点的运行环境信息。可以理解的是:故障节点是指上述位于产线环境下的服务器集群中的服务器、组件或相关联的多个组件从正常运行状态进入到异常运行状态,对于这些故障节点来说,若在其所在服务器集群中进行在线调试诊断,则需要停止服务器集群正提供的各项服务,从而影响服务器集群的处理性能。
为此本发明实施例在确定故障节点后,通过远程模拟故障节点的方式来进行故障分析,而为了实现这点,在节点故障后需要首先获取故障节点的运行环境信息,其中故障节点的运行环境信息指示当前故障节点的各项运行参数、依赖的上下文等等,如包括故障节点运行的操作系统、故障节点中组件的配置文件和软件上下文等等。
在本发明实施例中,获取故障节点的运行环境信息的方式可以是:向故障节点发送镜像指令;获取故障节点根据镜像指令采集到的镜像文件,所述镜像文件包含故障节点的运行环境信息,而向故障节点发送镜像指令是在检测到节点从正常运行状态进入故障运行状态,即检测到节点从正常节点转换为故障节点时发送。
而检测节点是否从正常运行状态进入故障运行状态的方式可以是:通过节点中的采集单元获取所述节点的运行状态信息;例如在节点中部署监控各自状态的功能组件,如Ambari Metrics System,通过Ambari Metrics System基于Metrics Monitor和hadoopsinks方式收集指示节点的运行状态信息的监控信息,并将收集到的监控信息记录在数据库中,如Hbase或Nosql这两个非关系型的数据库中。其中Ambari Metrics System简称为AMS,主要提供集群性能的监察功能,其内的Metrics Monitor用于监控系统级别信息,而hadoop sinks用于监控组件级别相关信息。
监控节点可以从数据库中获取节点的监控信息,当所述指示节点的运行状态信息的监控信息满足预设条件时,确定所述节点为故障节点,即检测到节点从正常运行状态进入到故障运行状态。
其中预设条件是由用户通过编写自定义插件配置出编写自定义插件,定义出不同系统组件运行状态下,不同类型的监控信息对应的故障阈值,这些不同类型的监控信息对应的故障阈值和故障规则在进行关联计算后发送到监控节点中,所谓关联计算是指在何种故障阈值下对应哪种故障规则,并可以通过消息中间件分发同步到监控节点中。
例如故障规则可以包括:系统级别故障和组件级别故障等等,对于不同监控信息根据其对应的故障阈值来确定故障规则,如可以是网卡无法正常启动和端口无法连接等系统级别故障,又或者可以是组件日志中出现大量重复Exception(异常)信息,如出现大量访问权限校验异常和加解密异常信息等组件级别故障,其中系统级别故障可以影响至少一个组件甚至整个服务器集群,而组件级别故障只影响组件自身,因此系统级别故障的处理优先级高于组件级别故障的处理优先级。
在确定故障节点后,可以触发监控节点向故障节点发送镜像指令,所述镜像指令用于指示对故障节点进行打包操作,以得到包含故障节点的运行环境信息的镜像文件。下面以监控节点和故障节点之间的信令交互图来说明得到包含故障节点的运行环境信息的镜像文件的过程,可以包括以下步骤:
301:监控节点为节点所处集群环境构建基础镜像文件。
302:监控节点通过基础镜像文件在节点中创建第一容器,并通过第一容器配置集群环境依赖的参数,得到集群环境的专属镜像文件。
其中集群环境是上述服务器集群的环境,而基础镜像文件是可以使服务器集群中各个节点安装的基础版本,此基础版本与具体组件或节点无关,在该基础版本上可灵活添加各组件、节点的信息,得到集群环境的专属镜像文件,此专属镜像文件除包含集群环境自身的专属镜像文件,还包含不同组件专有的专属镜像文件、节点专有的专属镜像文件等等。例如可以通过如下技术来得到专属镜像文件:
Docker pull centos:6.8//制作集群环境的基础镜像文件,如把centos6.8作为一个基础镜像文件;
Docker run-tid--name build-h build centos:6.8bash//通过基础镜像文件来创建第一容器;
Docker exec-ti build bash//进入到第一容器,配置参数
配置参数生效需要退出第一容器,然后在执行Docker commit build my-centos//生成集群环境的专属镜像文件。在本发明实施例中,基础镜像文件和专属镜像文件上传到镜像数据库中,便于监控节点和服务器集群来共享镜像数据库中的各个镜像文件。
303:监控节点在确定出故障节点后,向故障节点发送镜像指令。其中镜像指令包括:容器运行指令、运行环境记录指令和镜像返回指令,以通过这些指令来控制故障节点获取包含故障节点的运行环境信息的镜像文件。故障节点在接收到上述指令后执行以下步骤:
304:故障节点基于容器运行指令运行第一容器,并基于运行环境记录指令来通过第一容器记录故障节点的运行环境信息,如通过执行Docker commit container_nameimage:v2来记录故障节点的运行环境信息。
305:故障节点基于镜像返回指令通过故障节点的运行环境信息更新集群环境的专属镜像文件中故障节点对应的专属镜像文件,得到更新后的镜像文件并将更新后的镜像文件返回。所谓更新则是将故障节点的运行环境信息替换掉故障节点对应的专属镜像文件中对应的信息,然后将更新后的镜像文件返回至远端控制节点中。
202:基于故障节点的运行环境信息,模拟故障节点的运行环境,实现对故障节点的运行环境的远端重现。在本发明实施例中模拟故障节点的运行环境的方式也可以是通过镜像文件来创建对应的容器,通过运行对应的容器实现运行环境的模拟。
203:在模拟的运行环境中重现故障节点的故障,以得到故障对应的故障修复方案。例如监控节点在模拟的运行环境中依据镜像文件创建第二容器,并在模拟的运行环境中运行第二容器,从而重现故障节点的故障。
具体的监控节点在模拟故障节点的运行环境时可以同步重现故障节点的故障,如通过执行:
Docker pull XXX;
Docker run[OPTIONS]IMAGE[COMMAND][ARG...];
可以从镜像数据库中获取镜像文件,然后在监控节点上启动本地镜像,即运行对应的容器即可重现运行环境和故障。在这里需要说明的一点是:在本发明实施例中以Docker镜像技术为例,阐述镜像文件获取、运行环境的模拟和故障重现,通过docker镜像技术,可以确保故障节点运行时依赖的进程和相关依赖配置等运行环境信息得以快速保存,并在监控节点模拟的运行环境中快速重现,当然其还可以采用其他镜像技术来实施,对此本发明实施例不再阐述。
而在监控节点确定出多个故障节点时,需要根据故障节点中故障的处理优先级来依次处理,具体的按照处理优先级由高到低的顺序来依次模拟运行环境和重新故障,并且在重新任一故障时需要关闭掉监控节点上故障节点以及与其相关的节点和/或组件的历史后台服务进程,以防止运行冲突。
在重现故障后,通过对故障节点的故障进行分析,得到故障对应的故障修复方案。例如可以针对故障的告警重点日志进行运行环境的在线分析、跟踪调试、版本升级等分析,并在分析过程还可以支持人工干预,以快速得到故障修复方案。
在本发明实施例中,对于不同的故障得到的故障修复方案也有所不同,如故障修复方案包括但不限于下述几种:
修改系统组件固有配置参数,例如修改系统组件的复制因子,如对于文件冗余的复制因子来说,若复制因子指示对文件有三个备份文件,若在执行过程中发现磁盘空间不足,则可以将复制因子的取值降低,如复制因子从3降低为2;若发现磁盘空间利用率低,则可以提高复制因子的取值,如复制因子从3提高为4;
修改提交运行任务的配置,例如修改并行度参数,如在任务运行时存在内存溢出的日志,可以触发重跑机制,进而在任务运行的在某些阶段上调整并行度参数,如调小或者调大,具体视实际情况而定;
重启服务器集群中组件的相关服务,如服务器集群中某个组件无法正常启动,则需要重启该组件,具体可以由监控节点远程发送重启指令,无法正常启动的故障节点在接收到重启指令后,自身进行重启操作;
卸载并重装底层库文件,例如服务器集群的底层依赖库损坏,损坏之后上层提示异常,如无法找到,则需要卸载并重装;
制作服务故障的升级补丁。
监控节点在获取到故障修复方案,需要将故障修复方案快速推送到故障节点中,以实现快速修复故障节点的目的,其中监控节点可以采用Push Service(推送)方式将故障修复方案推送到故障节点,其中Push Service方式可以在故障节点的采集单元的采集程序中订阅相关消息通道,然后基于Message Queue(消息队列)在消息通道中发布订阅的方式来完成,也可以是在故障节点端建立定期轮询的机制,主动上述故障修复方案。
而故障节点在获取到故障修复方案后,需要等故障节点完成数据接收后,再一次性完成故障修复,但是对于故障修复是修复与数据接收无关的补丁脚本文件,则可以在获取到故障修复方案后立即执行,即可以边接收数据边进行故障修复。
借由上述技术方案,在获取故障节点的运行环境信息后,基于故障节点的运行环境信息,模拟故障节点的运行环境,在模拟的运行环境中重现故障节点的故障,以得到故障对应的故障修复方案,这样在服务器集群出现故障时,可以在其他设备如远端节点上模拟服务器集群中的故障,得到故障对应的故障修复方案,进而当故障发生时,对服务器集群不必实施复杂的在线调试操作,降低对服务器集群的性能和数据完整性的影响。且由于是模拟故障节点的运行环境,在模拟的运行环境中可通过人工干预和在线调试等方式来快速定位故障,并在得到故障修复方案后可快速推送到故障节点,达到快速修复的目的。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
与上述方法实施例相对应,本发明实施例还提供一种监控节点,所述监控节点包括:处理器,其中处理器用于获取故障节点的运行环境信息,基于故障节点的运行环境信息,模拟故障节点的运行环境,并在模拟的运行环境中重现故障节点的故障,以得到故障对应的故障修复方案。
在本发明实施例中,处理器确定故障节点的方式可以是:处理器还用于通过节点中的采集单元获取节点的运行状态信息,当节点的运行状态信息满足预设条件时,确定节点为故障节点,具体过程请参阅方法实施例中的相关说明。
进一步的获取故障节点的运行环境信息的一种方式是:通过监控节点中的发送器向故障节点发送镜像指令,这样处理器就可以获取到故障节点根据镜像指令采集到的镜像文件,镜像文件包含故障节点的运行环境信息。
而为了获取到包含故障节点的运行环境信息,处理器还用于在发送器向故障节点发送镜像指令之前,为节点所处集群环境构建基础镜像文件,通过基础镜像文件在节点中创建第一容器,并通过第一容器配置集群环境依赖的参数,得到集群环境的专属镜像文件。
其中发送器发送的镜像指令包括:容器运行指令、运行环境记录指令和镜像返回指令,容器运行指令用于控制故障节点运行第一容器。运行环境记录指令用于控制故障节点通过第一容器记录故障节点的运行环境信息。镜像返回指令用于控制故障节点通过故障节点的运行环境信息更新集群环境的专属镜像文件中故障节点对应的专属镜像文件,得到更新后的镜像文件并将更新后的镜像文件返回,以通过这些指令使得处理器可以获取到包括运行环境信息的镜像文件。
在本发明实施例中,处理器在模拟的运行环境中重现故障节点的故障,以得到故障对应的故障修复方案包括:在模拟的运行环境中依据镜像文件创建第二容器,并在模拟的运行环境中运行第二容器,从而重现故障节点的故障,并对故障节点的故障进行分析,得到故障对应的故障修复方案,具体请参阅方法实施例中的相关说明。
借由上述技术方案,在获取故障节点的运行环境信息后,基于故障节点的运行环境信息,模拟故障节点的运行环境,在模拟的运行环境中重现故障节点的故障,以得到故障对应的故障修复方案,这样在服务器集群出现故障时,可以在其他设备如远端节点上模拟服务器集群中的故障,得到故障对应的故障修复方案,进而当故障发生时,对服务器集群不必实施复杂的在线调试操作,降低对服务器集群的性能和数据完整性的影响。且由于是模拟故障节点的运行环境,在模拟的运行环境中可通过人工干预和在线调试等方式来快速定位故障,并在得到故障修复方案后可快速推送到故障节点,达到快速修复的目的。
请参阅图4,其示出了本发明实施例提供的故障修复装置的结构示意图,可以包括:获取单元11、模拟单元12和重现单元13。
获取单元11,用于获取故障节点的运行环境信息。在本发明实施例中,获取单元,用于向故障节点发送镜像指令,并获取故障节点根据镜像指令采集到的镜像文件,镜像文件包含故障节点的运行环境信息。
而为了获取到包含故障节点的运行环境信息,获取单元,还用于在向故障节点发送镜像指令之前,为节点所处集群环境构建基础镜像文件,通过基础镜像文件在节点中创建第一容器,并通过第一容器配置集群环境依赖的参数,得到集群环境的专属镜像文件。
其中镜像指令包括:容器运行指令、运行环境记录指令和镜像返回指令,容器运行指令用于控制故障节点运行第一容器。运行环境记录指令用于控制故障节点通过第一容器记录故障节点的运行环境信息。镜像返回指令用于控制故障节点通过故障节点的运行环境信息更新集群环境的专属镜像文件中故障节点对应的专属镜像文件,得到更新后的镜像文件并将更新后的镜像文件返回,以通过这些指令使得处理器可以获取到包括运行环境信息的镜像文件。
模拟单元12,用于基于故障节点的运行环境信息,模拟故障节点的运行环境。
重现单元13,用于在模拟的运行环境中重现故障节点的故障,以得到故障对应的故障修复方案。在本发明实施例中,重现单元13得到故障修复方案的方式可以是:在模拟的运行环境中依据镜像文件创建第二容器,并在模拟的运行环境中运行第二容器,从而重现故障节点的故障,并对故障节点的故障进行分析,得到故障对应的故障修复方案。
此外本发明实施例提供的故障修复装置还包括:确定单元,用于通过节点中的采集单元获取节点的运行状态信息,并当节点的运行状态信息满足预设条件时,确定节点为故障节点。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例和节点类实施例,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种故障修复方法,其特征在于,所述方法包括:
获取故障节点的运行环境信息;
基于所述故障节点的运行环境信息,模拟所述故障节点的运行环境;
在模拟的运行环境中重现所述故障节点的故障,以得到所述故障对应的故障修复方案。
2.根据权利要求1所述的方法,其特征在于,所述获取故障节点的运行环境信息包括:
向所述故障节点发送镜像指令;
获取所述故障节点根据所述镜像指令采集到的镜像文件,所述镜像文件包含所述故障节点的运行环境信息。
3.根据权利要求2所述的方法,其特征在于,所述获取故障节点的运行环境信息,还包括:
在向所述故障节点发送镜像指令之前,为节点所处集群环境构建基础镜像文件;
通过所述基础镜像文件在节点中创建第一容器,并通过所述第一容器配置所述集群环境依赖的参数,得到所述集群环境的专属镜像文件;
所述镜像指令包括:容器运行指令、运行环境记录指令和镜像返回指令,所述容器运行指令用于控制所述故障节点运行所述第一容器;所述运行环境记录指令用于控制所述故障节点通过所述第一容器记录所述故障节点的运行环境信息;所述镜像返回指令用于控制所述故障节点通过所述故障节点的运行环境信息更新所述集群环境的专属镜像文件中故障节点对应的专属镜像文件,得到更新后的镜像文件并将更新后的镜像文件返回。
4.根据权利要求2所述的方法,其特征在于,所述在模拟的运行环境中重现所述故障节点的故障,以得到所述故障对应的故障修复方案包括:
在模拟的运行环境中依据所述镜像文件创建第二容器,并在所述模拟的运行环境中运行所述第二容器,从而重现所述故障节点的故障;
对所述故障节点的故障进行分析,得到所述故障对应的故障修复方案。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:通过节点中的采集单元获取所述节点的运行状态信息;
当所述节点的运行状态信息满足预设条件时,确定所述节点为故障节点。
6.一种监控节点,其特征在于,所述监控节点包括:处理器,所述处理器用于获取故障节点的运行环境信息,基于所述故障节点的运行环境信息,模拟所述故障节点的运行环境,并在模拟的运行环境中重现所述故障节点的故障,以得到所述故障对应的故障修复方案。
7.根据权利要求6所述的监控节点,其特征在于,所述监控节点还包括:发送器,用于向所述故障节点发送镜像指令;
所述处理器,用于获取所述故障节点根据所述镜像指令采集到的镜像文件,所述镜像文件包含所述故障节点的运行环境信息。
8.根据权利要求7所述的监控节点,其特征在于,所述处理器还用于在所述发送器向所述故障节点发送镜像指令之前,为节点所处集群环境构建基础镜像文件,通过所述基础镜像文件在节点中创建第一容器,并通过所述第一容器配置所述集群环境依赖的参数,得到所述集群环境的专属镜像文件;
所述镜像指令包括:容器运行指令、运行环境记录指令和镜像返回指令,所述容器运行指令用于控制所述故障节点运行所述第一容器;所述运行环境记录指令用于控制所述故障节点通过所述第一容器记录所述故障节点的运行环境信息;所述镜像返回指令用于控制所述故障节点通过所述故障节点的运行环境信息更新所述集群环境的专属镜像文件中故障节点对应的专属镜像文件,得到更新后的镜像文件并将更新后的镜像文件返回。
9.根据权利要求7所述的监控节点,其特征在于,所述处理器在模拟的运行环境中重现所述故障节点的故障,以得到所述故障对应的故障修复方案包括:在模拟的运行环境中依据所述镜像文件创建第二容器,并在所述模拟的运行环境中运行所述第二容器,从而重现所述故障节点的故障,并对所述故障节点的故障进行分析,得到所述故障对应的故障修复方案。
10.根据权利要求6所述的监控节点,其特征在于,所述处理器还用于通过节点中的采集单元获取所述节点的运行状态信息,当所述节点的运行状态信息满足预设条件时,确定所述节点为故障节点。
CN201710303912.XA 2017-05-03 2017-05-03 一种故障修复方法及监控节点 Active CN107026760B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710303912.XA CN107026760B (zh) 2017-05-03 2017-05-03 一种故障修复方法及监控节点

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710303912.XA CN107026760B (zh) 2017-05-03 2017-05-03 一种故障修复方法及监控节点

Publications (2)

Publication Number Publication Date
CN107026760A true CN107026760A (zh) 2017-08-08
CN107026760B CN107026760B (zh) 2020-03-20

Family

ID=59527191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710303912.XA Active CN107026760B (zh) 2017-05-03 2017-05-03 一种故障修复方法及监控节点

Country Status (1)

Country Link
CN (1) CN107026760B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108710545A (zh) * 2018-03-23 2018-10-26 上海精鲲计算机科技有限公司 一种远程监控故障自愈系统
CN108718253A (zh) * 2018-05-11 2018-10-30 新华三技术有限公司 一种问题定位方法及装置
CN109002478A (zh) * 2018-06-19 2018-12-14 郑州云海信息技术有限公司 分布式文件系统的故障处理方法及相关设备
CN109697078A (zh) * 2018-12-10 2019-04-30 中国联合网络通信集团有限公司 非高可用性组件的修复方法、大数据集群和容器服务平台
CN109739680A (zh) * 2019-02-02 2019-05-10 广州视源电子科技股份有限公司 应用系统的故障查找方法、装置、设备及介质
CN110011853A (zh) * 2019-04-11 2019-07-12 中国联合网络通信集团有限公司 一种面向多平台和集群的交叉故障排查方法及装置
CN111078485A (zh) * 2019-12-03 2020-04-28 广州西麦科技股份有限公司 一种实训结果智能检测方法
CN111538625A (zh) * 2020-04-29 2020-08-14 西安交通大学 基于Docker技术的Ambari集群部署、数据备份方法及电子设备
CN111858305A (zh) * 2020-06-13 2020-10-30 东风电驱动系统有限公司 一种仪表故障在线诊断方法及装置
CN112579383A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 模拟系统故障的方法及装置
CN112882897A (zh) * 2021-02-24 2021-06-01 中国工商银行股份有限公司 异常场景处理方法、装置、电子设备及存储介质
CN113708981A (zh) * 2021-10-28 2021-11-26 广东睿江云计算股份有限公司 云主机系统故障修复方法、系统
CN113986598A (zh) * 2021-10-29 2022-01-28 中汽创智科技有限公司 一种确定开机故障原因的方法、装置、设备及存储介质
CN114039848A (zh) * 2021-09-30 2022-02-11 济南浪潮数据技术有限公司 一种实现InCloudInsight管理平台高可用的方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040153703A1 (en) * 2002-04-23 2004-08-05 Secure Resolutions, Inc. Fault tolerant distributed computing applications
CN104503423A (zh) * 2014-11-21 2015-04-08 河南中烟工业有限责任公司 基于profinet的工业以太网控制系统故障诊断方法
CN104932979A (zh) * 2015-07-01 2015-09-23 王沛 一种软件故障查找方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040153703A1 (en) * 2002-04-23 2004-08-05 Secure Resolutions, Inc. Fault tolerant distributed computing applications
CN104503423A (zh) * 2014-11-21 2015-04-08 河南中烟工业有限责任公司 基于profinet的工业以太网控制系统故障诊断方法
CN104932979A (zh) * 2015-07-01 2015-09-23 王沛 一种软件故障查找方法和装置

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108710545A (zh) * 2018-03-23 2018-10-26 上海精鲲计算机科技有限公司 一种远程监控故障自愈系统
CN108718253A (zh) * 2018-05-11 2018-10-30 新华三技术有限公司 一种问题定位方法及装置
CN109002478A (zh) * 2018-06-19 2018-12-14 郑州云海信息技术有限公司 分布式文件系统的故障处理方法及相关设备
CN109697078B (zh) * 2018-12-10 2022-02-08 中国联合网络通信集团有限公司 非高可用性组件的修复方法、大数据集群和容器服务平台
CN109697078A (zh) * 2018-12-10 2019-04-30 中国联合网络通信集团有限公司 非高可用性组件的修复方法、大数据集群和容器服务平台
CN109739680A (zh) * 2019-02-02 2019-05-10 广州视源电子科技股份有限公司 应用系统的故障查找方法、装置、设备及介质
CN110011853A (zh) * 2019-04-11 2019-07-12 中国联合网络通信集团有限公司 一种面向多平台和集群的交叉故障排查方法及装置
CN110011853B (zh) * 2019-04-11 2022-02-25 中国联合网络通信集团有限公司 一种面向多平台和集群的交叉故障排查方法及装置
CN112579383A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 模拟系统故障的方法及装置
CN111078485A (zh) * 2019-12-03 2020-04-28 广州西麦科技股份有限公司 一种实训结果智能检测方法
CN111538625A (zh) * 2020-04-29 2020-08-14 西安交通大学 基于Docker技术的Ambari集群部署、数据备份方法及电子设备
CN111538625B (zh) * 2020-04-29 2023-03-28 西安交通大学 基于Docker技术的Ambari集群部署、数据备份方法及电子设备
CN111858305A (zh) * 2020-06-13 2020-10-30 东风电驱动系统有限公司 一种仪表故障在线诊断方法及装置
CN112882897A (zh) * 2021-02-24 2021-06-01 中国工商银行股份有限公司 异常场景处理方法、装置、电子设备及存储介质
CN114039848A (zh) * 2021-09-30 2022-02-11 济南浪潮数据技术有限公司 一种实现InCloudInsight管理平台高可用的方法、装置及设备
CN113708981A (zh) * 2021-10-28 2021-11-26 广东睿江云计算股份有限公司 云主机系统故障修复方法、系统
CN113708981B (zh) * 2021-10-28 2022-04-15 广东睿江云计算股份有限公司 云主机系统故障修复方法、系统
CN113986598A (zh) * 2021-10-29 2022-01-28 中汽创智科技有限公司 一种确定开机故障原因的方法、装置、设备及存储介质
CN113986598B (zh) * 2021-10-29 2023-10-27 中汽创智科技有限公司 一种确定开机故障原因的方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN107026760B (zh) 2020-03-20

Similar Documents

Publication Publication Date Title
CN107026760A (zh) 一种故障修复方法及监控节点
US9639439B2 (en) Disaster recovery framework for cloud delivery
Chen Path-based failure and evolution management
US11017333B2 (en) Web-based support subscriptions
KR102268355B1 (ko) 클라우드 배치 기반구조 검증 엔진
Dumitraş et al. Why do upgrades fail and what can we do about it? Toward dependable, online upgrades in enterprise system
US6167358A (en) System and method for remotely monitoring a plurality of computer-based systems
US8276023B2 (en) Method and system for remote monitoring subscription service
CN107660289B (zh) 自动网络控制
US10489232B1 (en) Data center diagnostic information
CN100461130C (zh) 测试软件应用的方法
US8578337B2 (en) Method and system for quality assurance subscription service
US20140325286A1 (en) Troubleshooting system using device snapshots
Lou et al. Experience report on applying software analytics in incident management of online service
US7739554B2 (en) Method and system for automatic resolution and dispatching subscription service
Candea et al. Autonomous recovery in componentized internet applications
CN106980565B (zh) 升级过程监控方法及装置
US20080208931A1 (en) Method and system for continuous availability subscription service
Veeraraghavan et al. Maelstrom: Mitigating datacenter-level disasters by draining interdependent traffic safely and efficiently
Sun et al. Automatic reliability testing for cluster management controllers
CN110134558B (zh) 一种服务器的检测方法和装置
Matevska et al. Decentralised Avionics and Software Architecture for Sounding Rocket Missions.
Braubach et al. Robustness by Design
Barata Information Systems and Computer Engineering
Vatsia Designing and implementing IoT-device monitoring in cloud environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant