CN115473793B - 一种集群ei主机环境自动恢复方法、装置、终端及介质 - Google Patents

一种集群ei主机环境自动恢复方法、装置、终端及介质 Download PDF

Info

Publication number
CN115473793B
CN115473793B CN202210999734.XA CN202210999734A CN115473793B CN 115473793 B CN115473793 B CN 115473793B CN 202210999734 A CN202210999734 A CN 202210999734A CN 115473793 B CN115473793 B CN 115473793B
Authority
CN
China
Prior art keywords
node
cluster
standby
state
host environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210999734.XA
Other languages
English (en)
Other versions
CN115473793A (zh
Inventor
潘彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202210999734.XA priority Critical patent/CN115473793B/zh
Publication of CN115473793A publication Critical patent/CN115473793A/zh
Application granted granted Critical
Publication of CN115473793B publication Critical patent/CN115473793B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/22Arrangements for detecting or preventing errors in the information received using redundant apparatus to increase reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明涉及EI主机环境恢复领域,具体公开一种集群EI主机环境自动恢复方法、装置、终端及介质,监控集群状态;当集群的某个或某些节点发生故障时,触发集群状态恢复程序,对故障节点进行恢复至集群状态正常;集群状态恢复正常后,触发EI主机环境恢复程序,对EI主机环境进行恢复。本发明可自动实时监控集群的状态,若集群状态正常则不会启动集群恢复和EI主机环境的恢复,若集群状态异常,则会首先启动恢复集群,然后会触发EI主机环境的自动恢复,避免总是人为去检测、恢复集群、恢复EI环境,节省人力,提高工作效率。

Description

一种集群EI主机环境自动恢复方法、装置、终端及介质
技术领域
本发明涉及EI主机环境恢复领域,具体涉及一种集群EI主机环境自动恢复方法、装置、终端及介质。
背景技术
在存储设备测试过程中,集群只有在集群下所有节点的状态都为活动状态时才可对集群做EI(Error Inject,错误注入)干预,以模拟各种类型的集群场景。当前,当集群状态发生异常时,需要手动对EI主机进行重复恢复,极大耗费人力,影响测试效率。
发明内容
为解决上述问题,本发明提供一种集群EI主机环境自动恢复方法、装置、终端及介质,可自动实时监控集群的状态,若集群状态正常则不会启动集群恢复和EI主机环境的恢复,若集群状态异常,则会首先启动恢复集群,然后会触发EI主机环境的自动恢复,节省人力,提高工作效率。
第一方面,本发明的技术方案提供一种集群EI主机环境自动恢复方法,包括以下步骤:
S1,监控集群状态;
S2,当集群的某个或某些节点发生故障时,触发集群状态恢复程序,对故障节点进行恢复至集群状态正常;
S3,集群状态恢复正常后,触发EI主机环境恢复程序,对EI主机环境进行恢复。
进一步地,集群采用一主一备热备节点工作模式;
步骤S2具体包括:
S2-1,当集群的某个或某些节点发生故障时,判断故障节点类型;
S2-2,若故障节点为拥有令牌的主节点,则将令牌分配给备节点,将该备节点升级为主节点,并在其他活动节点中选择一个节点作为新的备节点,之后对旧的主节点进行恢复至集群状态正常;
S2-2,若故障节点为备节点,则在其他活动节点中选择一个节点作为新的备节点,并对旧的备节点进行恢复至集群状态正常;
S2-3,若故障节点为除主节点、备节点之外的节点,则维持当前主备状态不变,对故障节点进行恢复至集群状态正常。
进一步地,步骤S2-2和步骤S2-3中在其他活动节点中选择一个节点作为新的备节点,具体为:
根据令牌分配策略,采用节点轮询方式在其他活动节点中选择一个节点作为新的备节点。
进一步地,步骤S3具体包括:
S3-1,读取配置文件获取环境变量配置信息,检测环境变量配置信息是否正确,若不正确则重新配置;环境变量配置信息包括集群IO地址、集群所在节点的名称、集群所有的服务IP;
S3-2,创建EI脚本的挂节点,包括指定文件系统类型、要挂接的设备IP地址和EI主机的挂节点;
S3-3,配置EI主机到集群的免密登录。
第二方面,本发明的技术方案提供一种集群EI主机环境自动恢复装置,包括,
集群状态监控模块:监控集群状态;
集群状态恢复模块:当集群的某个或某些节点发生故障时,触发集群状态恢复程序,对故障节点进行恢复至集群状态正常;
EI主机环境恢复模块:集群状态恢复正常后,触发EI主机环境恢复程序,对EI主机环境进行恢复。
进一步地,集群采用一主一备热备节点工作模式;
集群状态恢复模块具体执行以下步骤:
当集群的某个或某些节点发生故障时,判断故障节点类型;
若故障节点为拥有令牌的主节点,则将令牌分配给备节点,将该备节点升级为主节点,并在其他活动节点中选择一个节点作为新的备节点,之后对旧的主节点进行恢复至集群状态正常;
若故障节点为备节点,则在其他活动节点中选择一个节点作为新的备节点,并对旧的备节点进行恢复至集群状态正常;
若故障节点为除主节点、备节点之外的节点,则维持当前主备状态不变,对故障节点进行恢复至集群状态正常。
进一步地,集群状态恢复模块根据令牌分配策略,采用节点轮询方式在其他活动节点中选择一个节点作为新的备节点。
进一步地,EI主机环境恢复模块具体执行以下步骤:
读取配置文件获取环境变量配置信息,检测环境变量配置信息是否正确,若不正确则重新配置;环境变量配置信息包括集群IO地址、集群所在节点的名称、集群所有的服务IP;
创建EI脚本的挂节点,包括指定文件系统类型、要挂接的设备IP地址和EI主机的挂节点;
配置EI主机到集群的免密登录。
第三方面,本发明的技术方案提供一种终端,包括:
存储器,用于存储集群EI主机环境自动恢复程序;
处理器,用于执行所述集群EI主机环境自动恢复程序时实现如上述任一项所述集群EI主机环境自动恢复方法的步骤。
第四方面,本发明的技术方案提供一种计算机可读存储介质,所述可读存储介质上存储有集群EI主机环境自动恢复程序,所述集群EI主机环境自动恢复程序被处理器执行时实现如上述任一项所述集群EI主机环境自动恢复方法的步骤。
本发明提供的一种集群EI主机环境自动恢复方法、装置、终端及介质,相对于现有技术,具有以下有益效果:可自动实时监控集群的状态,若集群状态正常则不会启动集群恢复和EI主机环境的恢复,若集群状态异常,则会首先启动恢复集群,然后会触发EI主机环境的自动恢复,避免总是人为去检测、恢复集群、恢复EI环境,节省人力,提高工作效率。
附图说明
为了更清楚的说明本申请实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种集群EI主机环境自动恢复方法流程示意图。
图2是本发明实施例二提供的一种集群EI主机环境自动恢复方法流程示意图。
图3是本发明实施例二提供的一种集群EI主机环境自动恢复方法的一具体实施例的原理流程示意图。
图4是本发明实施例三提供的一种集群EI主机环境自动恢复装置结构示意框图。
图5是本发明实施例四提供的一种终端的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明的核心是针对当前集群状态发生异常时,需要手动对EI主机进行重复恢复,极大耗费人力,影响测试效率的问题,提供的一种集群EI主机环境自动恢复方法,可自动实时监控集群的状态,若集群状态正常则不会启动集群恢复和EI主机环境的恢复,若集群状态异常,则会首先启动恢复集群,然后会触发EI主机环境的恢复。
实施例一
图1是本发明实施例一提供一种集群EI主机环境自动恢复方法流程示意图,如图1所示,该方法包括以下步骤。
S1,监控集群状态。
实时监控集群的状态是否正常,若不正常,则说明有节点出现故障,需要对集群状态进行恢复,再恢复EI主机环境。
S2,当集群的某个或某些节点发生故障时,触发集群状态恢复程序,对故障节点进行恢复至集群状态正常。
在集群发生故障时,通过集群状态恢复程序对集群自动进行状态恢复。
S3,集群状态恢复正常后,触发EI主机环境恢复程序,对EI主机环境进行恢复。
通过EI主机环境恢复程序自动对EI主机环境进行恢复。
本发明实施例一提供的一种集群EI主机环境自动恢复方法,可自动实时监控集群的状态,若集群状态正常则不会启动集群恢复和EI主机环境的恢复,若集群状态异常,则会首先启动恢复集群,然后会触发EI主机环境的自动恢复,避免总是人为去检测、恢复集群、恢复EI环境,节省人力,提高工作效率。
实施例二
图2是本发明实施例二提供的一种集群EI主机环境自动恢复方法流程示意图,如图2所示,该方法包括以下步骤。
S1,监控集群状态。
S2,判断集群状态是否正常,若正常则继续执行步骤S1对集群状态进行监控,若不正常则进入下一步。
S3,判断故障节点类型。
需要说明的是,集群采用一主一备热备节点工作模式,不同类型节点出现故障采用不同的状态恢复流程。
S4,若故障节点为拥有令牌的主节点,则将令牌分配给备节点,将该备节点升级为主节点,并在其他活动节点中选择一个节点作为新的备节点,之后对旧的主节点进行恢复至集群状态正常。
S5,若故障节点为备节点,则在其他活动节点中选择一个节点作为新的备节点,并对旧的备节点进行恢复至集群状态正常。
其中,步骤S2-2和步骤S2-3中在其他活动节点中选择一个节点作为新的备节点,具体为:根据令牌分配策略,采用节点轮询方式在其他活动节点中选择一个节点作为新的备节点。
S6,若故障节点为除主节点、备节点之外的节点,则维持当前主备状态不变,对故障节点进行恢复至集群状态正常。
上述步骤是对集群状态的恢复,集群状态恢复后再触发对EI主机环境的自动恢复。
S7,读取配置文件获取环境变量配置信息,检测环境变量配置信息是否正确,若不正确则重新配置。
环境变量配置信息包括集群IO地址、集群所在节点的名称、集群所有的服务IP;
S8,创建EI脚本的挂节点。
包括指定文件系统类型、要挂接的设备IP地址和EI主机的挂节点。
S9,配置EI主机到集群的免密登录。
本发明实施例二提供的一种集群EI主机环境自动恢复方法,可自动实时监控集群的状态,若集群状态正常则不会启动集群恢复和EI主机环境的恢复,若集群状态异常,则会首先启动恢复集群,然后会触发EI主机环境的自动恢复,避免总是人为去检测、恢复集群、恢复EI环境,节省人力,提高工作效率。
为进一步理解本发明,以下提供一具体实施例对本发明进一步详细说明,图3是该具体实施例原理流程示意图,包括执行以下过程。
1、集群状态实时监控
采用分布式集群管理控制模式,实施一主一备热备节点工作模式,构成主备节点相互监视状态。其中,主节点为拥有令牌的节点,且为集群的管理控制节点。主节点实时监控集群的状态正常与否。
2、恢复集群状态
在一主一备热备节点工作模式下,当发现某节点故障后立即执行任务迁移和恢复。
若主节点发生故障,则将备节点升级为主节点,并将令牌分配给备节点;再在其他活动节点选择一个节点作为备节点,重新构成一主一备热备份状态;并恢复故障节点至集群状态正常。
若备节点发生故障,则根据令牌分配策略(节点轮询方式),在其他活动节点选择一个节点作为备节点,重新构成一主一备热备份状态;并恢复故障节点至集群状态正常。
若除主节点、备节点之外的其他集群节点发生故障,则继续维持现有的一主一备热备份状态不变;并恢复故障节点至集群状态正常。
3、触发EI主机环境恢复
EI主机的恢复主要包括3个步骤:配置环境变量、创建EI脚本的挂接点、配置EI主机到集群的免密登陆。首先会自动检测环境变量的设置是否正确,环境变量中主要设置的信息包括集群的IP地址、集群所有节点的名称、集群所有的服务IP。其次会创建EI脚本的挂接点,指定文件系统的类型,要挂接的设备IP地址和EI主机的挂接点。最后需要设置EI主机到集群的免密登陆。
实施例三
上文中对于一种集群EI主机环境自动恢复的方法的实施例进行了详细描述,基于上述实施例描述的集群EI主机环境自动恢复的方法,本发明实施例还提供了一种与该方法对应的集群EI主机环境自动恢复的装置。
图4是本实施例三提供的一种集群EI主机环境自动恢复装置结构示意框图,如图4所示,该装置包括:集群状态监控模块101、集群状态恢复模块102和集群状态恢复程序103。
集群状态监控模块101:监控集群状态。
集群状态恢复模块102:当集群的某个或某些节点发生故障时,触发集群状态恢复程序,对故障节点进行恢复至集群状态正常。
EI主机环境恢复模块103:集群状态恢复正常后,触发EI主机环境恢复程序,对EI主机环境进行恢复。
集群采用一主一备热备节点工作模式,相应的,集群状态恢复模块102具体执行以下步骤:
当集群的某个或某些节点发生故障时,判断故障节点类型;
若故障节点为拥有令牌的主节点,则将令牌分配给备节点,将该备节点升级为主节点,并在其他活动节点中选择一个节点作为新的备节点,之后对旧的主节点进行恢复至集群状态正常;
若故障节点为备节点,则在其他活动节点中选择一个节点作为新的备节点,并对旧的备节点进行恢复至集群状态正常;
若故障节点为除主节点、备节点之外的节点,则维持当前主备状态不变,对故障节点进行恢复至集群状态正常。
其中,集群状态恢复模块102根据令牌分配策略,采用节点轮询方式在其他活动节点中选择一个节点作为新的备节点。
EI主机环境恢复模块103具体执行以下步骤:
读取配置文件获取环境变量配置信息,检测环境变量配置信息是否正确,若不正确则重新配置;环境变量配置信息包括集群IO地址、集群所在节点的名称、集群所有的服务IP;
创建EI脚本的挂节点,包括指定文件系统类型、要挂接的设备IP地址和EI主机的挂节点;
配置EI主机到集群的免密登录。
本实施例的集群EI主机环境自动恢复装置用于实现前述的集群EI主机环境自动恢复方法,因此该装置中的具体实施方式可见前文中的集群EI主机环境自动恢复方法的实施例部分,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再展开介绍。
另外,由于本实施例的集群EI主机环境自动恢复装置用于实现前述的集群EI主机环境自动恢复方法,因此其作用与上述方法的作用相对应,这里不再赘述。
实施例四
图5为本发明实施例提供的一种终端装置500的结构示意图,包括:处理器510、存储器520及通信单元530。所述处理器510用于实现存储器520中保存的集群EI主机环境自动恢复程序时实现以下步骤:
S1,监控集群状态;
S2,当集群的某个或某些节点发生故障时,触发集群状态恢复程序,对故障节点进行恢复至集群状态正常;
S3,集群状态恢复正常后,触发EI主机环境恢复程序,对EI主机环境进行恢复。
本发明可自动实时监控集群的状态,若集群状态正常则不会启动集群恢复和EI主机环境的恢复,若集群状态异常,则会首先启动恢复集群,然后会触发EI主机环境的自动恢复,避免总是人为去检测、恢复集群、恢复EI环境,节省人力,提高工作效率。
在一些具体实施例中,所述处理器510执行存储器520中保存的集群EI主机环境自动恢复子程序时,具体可以实现:当集群的某个或某些节点发生故障时,判断故障节点类型;若故障节点为拥有令牌的主节点,则将令牌分配给备节点,将该备节点升级为主节点,并在其他活动节点中选择一个节点作为新的备节点,之后对旧的主节点进行恢复至集群状态正常;若故障节点为备节点,则在其他活动节点中选择一个节点作为新的备节点,并对旧的备节点进行恢复至集群状态正常;若故障节点为除主节点、备节点之外的节点,则维持当前主备状态不变,对故障节点进行恢复至集群状态正常。
在一些具体实施例中,所述处理器510执行存储器520中保存的集群EI主机环境自动恢复子程序时,具体可以实现:根据令牌分配策略,采用节点轮询方式在其他活动节点中选择一个节点作为新的备节点。
在一些具体实施例中,所述处理器510执行存储器520中保存的集群EI主机环境自动恢复子程序时,具体可以实现:读取配置文件获取环境变量配置信息,检测环境变量配置信息是否正确,若不正确则重新配置;环境变量配置信息包括集群IO地址、集群所在节点的名称、集群所有的服务IP;创建EI脚本的挂节点,包括指定文件系统类型、要挂接的设备IP地址和EI主机的挂节点;配置EI主机到集群的免密登录。
该终端装置500包括处理器510、存储器520及通信单元530。这些组件通过一条或多条总线进行通信,本领域技术人员可以理解,图中示出的服务器的结构并不构成对本发明的限定,它既可以是总线形结构,也可以是星型结构,还可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
其中,该存储器520可以用于存储处理器510的执行指令,存储器520可以由任何类型的易失性或非易失性存储终端或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。当存储器520中的执行指令由处理器510执行时,使得终端500能够执行以下上述方法实施例中的部分或全部步骤。
处理器510为存储终端的控制中心,利用各种接口和线路连接整个电子终端的各个部分,通过运行或执行存储在存储器520内的软件程序和/或模块,以及调用存储在存储器内的数据,以执行电子终端的各种功能和/或处理数据。所述处理器可以由集成电路(Integrated Circuit,简称IC)组成,例如可以由单颗封装的IC所组成,也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说,处理器510可以仅包括中央处理器(Central Processing Unit,简称CPU)。在本发明实施方式中,CPU可以是单运算核心,也可以包括多运算核心。
通信单元530,用于建立通信信道,从而使所述存储终端可以与其它终端进行通信。接收其他终端发送的用户数据或者向其他终端发送用户数据。
实施例五
本发明还提供一种计算机存储介质,这里所说的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:ROM)或随机存储记忆体(英文:random accessmemory,简称:RAM)等。
计算机存储介质存储有集群EI主机环境自动恢复程序,所述集群EI主机环境自动恢复程序被处理器执行时实现以下步骤:
S1,监控集群状态;
S2,当集群的某个或某些节点发生故障时,触发集群状态恢复程序,对故障节点进行恢复至集群状态正常;
S3,集群状态恢复正常后,触发EI主机环境恢复程序,对EI主机环境进行恢复。
本发明可自动实时监控集群的状态,若集群状态正常则不会启动集群恢复和EI主机环境的恢复,若集群状态异常,则会首先启动恢复集群,然后会触发EI主机环境的自动恢复,避免总是人为去检测、恢复集群、恢复EI环境,节省人力,提高工作效率。
在一些具体实施例中,所述可读存储介质中存储的集群EI主机环境自动恢复子程序被处理器执行时,具体可以实现:当集群的某个或某些节点发生故障时,判断故障节点类型;若故障节点为拥有令牌的主节点,则将令牌分配给备节点,将该备节点升级为主节点,并在其他活动节点中选择一个节点作为新的备节点,之后对旧的主节点进行恢复至集群状态正常;若故障节点为备节点,则在其他活动节点中选择一个节点作为新的备节点,并对旧的备节点进行恢复至集群状态正常;若故障节点为除主节点、备节点之外的节点,则维持当前主备状态不变,对故障节点进行恢复至集群状态正常。
在一些具体实施例中,所述可读存储介质中存储的集群EI主机环境自动恢复子程序被处理器执行时,具体可以实现:根据令牌分配策略,采用节点轮询方式在其他活动节点中选择一个节点作为新的备节点。
在一些具体实施例中,所述可读存储介质中存储的集群EI主机环境自动恢复子程序被处理器执行时,具体可以实现:读取配置文件获取环境变量配置信息,检测环境变量配置信息是否正确,若不正确则重新配置;环境变量配置信息包括集群IO地址、集群所在节点的名称、集群所有的服务IP;创建EI脚本的挂节点,包括指定文件系统类型、要挂接的设备IP地址和EI主机的挂节点;配置EI主机到集群的免密登录。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中如U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,包括若干指令用以使得一台计算机终端(可以是个人计算机,服务器,或者第二终端、网络终端等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
以上公开的仅为本发明的优选实施方式,但本发明并非局限于此,任何本领域的技术人员能思之的没有创造性的变化,以及在不脱离本发明原理前提下所作的若干改进和润饰,都应落在本发明的保护范围内。

Claims (6)

1.一种集群错误注入(EI)主机环境自动恢复方法,其特征在于,包括以下步骤:
S1,监控集群状态;
S2,当集群的某个或某些节点发生故障时,触发集群状态恢复程序,对故障节点进行恢复至集群状态正常;
S3,集群状态恢复正常后,触发EI主机环境恢复程序,对EI主机环境进行恢复;
其中,集群采用一主一备热备节点工作模式;
步骤S2具体包括:
S2-1,当集群的某个或某些节点发生故障时,判断故障节点类型;
S2-2,若故障节点为拥有令牌的主节点,则将令牌分配给备节点,将该备节点升级为主节点,并在其他活动节点中选择一个节点作为新的备节点,之后对旧的主节点进行恢复至集群状态正常;
S2-2,若故障节点为备节点,则在其他活动节点中选择一个节点作为新的备节点,并对旧的备节点进行恢复至集群状态正常;
S2-3,若故障节点为除主节点、备节点之外的节点,则维持当前主备状态不变,对故障节点进行恢复至集群状态正常;
步骤S3具体包括:
S3-1,读取配置文件获取环境变量配置信息,检测环境变量配置信息是否正确,若不正确则重新配置;环境变量配置信息包括集群IO地址、集群所在节点的名称、集群所有的服务IP;
S3-2,创建EI脚本的挂接点,包括指定文件系统类型、要挂接的设备IP地址和EI主机的挂接点;
S3-3,配置EI主机到集群的免密登录。
2.根据权利要求1所述的集群错误注入(EI)主机环境自动恢复方法,其特征在于,步骤S2-2和步骤S2-3中在其他活动节点中选择一个节点作为新的备节点,具体为:
根据令牌分配策略,采用节点轮询方式在其他活动节点中选择一个节点作为新的备节点。
3.一种集群错误注入(EI)主机环境自动恢复装置,其特征在于,包括,
集群状态监控模块:监控集群状态;
集群状态恢复模块:当集群的某个或某些节点发生故障时,触发集群状态恢复程序,对故障节点进行恢复至集群状态正常;
EI主机环境恢复模块:集群状态恢复正常后,触发EI主机环境恢复程序,对EI主机环境进行恢复;
其中,集群采用一主一备热备节点工作模式;
集群状态恢复模块具体执行以下步骤:
当集群的某个或某些节点发生故障时,判断故障节点类型;
若故障节点为拥有令牌的主节点,则将令牌分配给备节点,将该备节点升级为主节点,并在其他活动节点中选择一个节点作为新的备节点,之后对旧的主节点进行恢复至集群状态正常;
若故障节点为备节点,则在其他活动节点中选择一个节点作为新的备节点,并对旧的备节点进行恢复至集群状态正常;
若故障节点为除主节点、备节点之外的节点,则维持当前主备状态不变,对故障节点进行恢复至集群状态正常;
EI主机环境恢复模块具体执行以下步骤:
读取配置文件获取环境变量配置信息,检测环境变量配置信息是否正确,若不正确则重新配置;环境变量配置信息包括集群IO地址、集群所在节点的名称、集群所有的服务IP;
创建EI脚本的挂接点,包括指定文件系统类型、要挂接的设备IP地址和EI主机的挂接点;
配置EI主机到集群的免密登录。
4.根据权利要求3所述的集群错误注入(EI)主机环境自动恢复装置,其特征在于,集群状态恢复模块根据令牌分配策略,采用节点轮询方式在其他活动节点中选择一个节点作为新的备节点。
5.一种终端,其特征在于,包括:
存储器,用于存储集群错误注入(EI)主机环境自动恢复程序;
处理器,用于执行所述集群错误注入(EI)主机环境自动恢复程序时实现如权利要求1或2所述集群错误注入(EI)主机环境自动恢复方法的步骤。
6.一种计算机可读存储介质,其特征在于,所述可读存储介质上存储有集群错误注入(EI)主机环境自动恢复程序,所述集群错误注入(EI)主机环境自动恢复程序被处理器执行时实现如权利要求1或2所述集群错误注入(EI)主机环境自动恢复方法的步骤。
CN202210999734.XA 2022-08-19 2022-08-19 一种集群ei主机环境自动恢复方法、装置、终端及介质 Active CN115473793B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210999734.XA CN115473793B (zh) 2022-08-19 2022-08-19 一种集群ei主机环境自动恢复方法、装置、终端及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210999734.XA CN115473793B (zh) 2022-08-19 2022-08-19 一种集群ei主机环境自动恢复方法、装置、终端及介质

Publications (2)

Publication Number Publication Date
CN115473793A CN115473793A (zh) 2022-12-13
CN115473793B true CN115473793B (zh) 2023-08-08

Family

ID=84366251

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210999734.XA Active CN115473793B (zh) 2022-08-19 2022-08-19 一种集群ei主机环境自动恢复方法、装置、终端及介质

Country Status (1)

Country Link
CN (1) CN115473793B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101872323A (zh) * 2009-04-22 2010-10-27 曾凡平 一种基于虚拟机的故障注入测试方法
CN102591750A (zh) * 2011-12-31 2012-07-18 曙光信息产业股份有限公司 集群系统的恢复方法
CN104036548A (zh) * 2014-07-01 2014-09-10 浪潮(北京)电子信息产业有限公司 Mha集群环境重建方法、装置和系统
CN111538613A (zh) * 2020-04-28 2020-08-14 浙江大华技术股份有限公司 一种集群系统异常恢复处理方法及装置
CN113535532A (zh) * 2020-04-14 2021-10-22 中国移动通信集团浙江有限公司 故障注入系统、方法和装置
CN114020509A (zh) * 2021-10-29 2022-02-08 济南浪潮数据技术有限公司 工作负载集群的修复方法、装置、设备及可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101872323A (zh) * 2009-04-22 2010-10-27 曾凡平 一种基于虚拟机的故障注入测试方法
CN102591750A (zh) * 2011-12-31 2012-07-18 曙光信息产业股份有限公司 集群系统的恢复方法
CN104036548A (zh) * 2014-07-01 2014-09-10 浪潮(北京)电子信息产业有限公司 Mha集群环境重建方法、装置和系统
CN113535532A (zh) * 2020-04-14 2021-10-22 中国移动通信集团浙江有限公司 故障注入系统、方法和装置
CN111538613A (zh) * 2020-04-28 2020-08-14 浙江大华技术股份有限公司 一种集群系统异常恢复处理方法及装置
CN114020509A (zh) * 2021-10-29 2022-02-08 济南浪潮数据技术有限公司 工作负载集群的修复方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN115473793A (zh) 2022-12-13

Similar Documents

Publication Publication Date Title
CN103201724B (zh) 在高可用性虚拟机环境中提供高可用性应用程序
CN109189627B (zh) 一种硬盘故障监控检测方法、装置、终端及存储介质
CN110851320A (zh) 一种服务器宕机监管方法、系统、终端及存储介质
CN109976949B (zh) 一种bmc故障镜像回滚刷新方法、装置、终端及存储介质
CN111274077A (zh) 一种磁盘阵列可靠性测试方法、系统、终端及存储介质
CN114116280B (zh) 交互式bmc自恢复方法、系统、终端及存储介质
CN112068935B (zh) kubernetes程序部署监控方法、装置以及设备
CN111181780A (zh) 基于ha集群的主机池切换方法、系统、终端及存储介质
CN110673993A (zh) 一种故障注入方法、平台及系统
CN112231140A (zh) 一种存储设备bmc故障恢复方法、系统、终端及存储介质
CN111062503B (zh) 一种电网监控告警处理方法、系统、终端及存储介质
CN115129249A (zh) Sas链路拓扑识别管理方法、系统、终端及存储介质
CN111506331A (zh) 一种服务器bmc刷新方法、系统、终端及存储介质
CN114116276A (zh) Bmc挂死自恢复方法、系统、终端及存储介质
CN115473793B (zh) 一种集群ei主机环境自动恢复方法、装置、终端及介质
CN106911508B (zh) Dns配置的恢复方法和装置
CN112256532A (zh) 测试界面生成方法、装置、计算机设备及可读存储介质
CN110620684A (zh) 一种存储双控防脑裂方法、系统、终端及存储介质
CN113778763B (zh) 一种三方接口服务故障智能切换方法及系统
CN113760608B (zh) 数据恢复方法和装置、电子设备和存储介质
CN115373916A (zh) 异常检测方法、装置、电子设备及计算机可读存储介质
CN114153503A (zh) 一种bios控制方法、装置、介质
EP2962202A1 (en) Recovery program using diagnostic results
CN113849364B (zh) 一种边缘应用管理方法、装置、设备及可读存储介质
CN115529321B (zh) 归属用户服务器容灾备份及故障恢复方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant