CN112187877B - 一种基于分布式集群的节点唤醒方法及受控终端 - Google Patents

一种基于分布式集群的节点唤醒方法及受控终端 Download PDF

Info

Publication number
CN112187877B
CN112187877B CN202010945598.7A CN202010945598A CN112187877B CN 112187877 B CN112187877 B CN 112187877B CN 202010945598 A CN202010945598 A CN 202010945598A CN 112187877 B CN112187877 B CN 112187877B
Authority
CN
China
Prior art keywords
node
wol
nodes
distributed cluster
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010945598.7A
Other languages
English (en)
Other versions
CN112187877A (zh
Inventor
朱正东
吴业亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huayun Data Holding Group Co ltd
Original Assignee
Huayun Data Holding Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huayun Data Holding Group Co ltd filed Critical Huayun Data Holding Group Co ltd
Priority to CN202010945598.7A priority Critical patent/CN112187877B/zh
Publication of CN112187877A publication Critical patent/CN112187877A/zh
Application granted granted Critical
Publication of CN112187877B publication Critical patent/CN112187877B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1008Server selection for load balancing based on parameters of servers, e.g. available memory or workload
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/4401Bootstrapping
    • G06F9/4416Network booting; Remote initial program loading [RIPL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/4401Bootstrapping
    • G06F9/4418Suspend and resume; Hibernate and awake
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/101Server selection for load balancing based on network conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Environmental & Geological Engineering (AREA)
  • Small-Scale Networks (AREA)

Abstract

本发明提供了一种基于分布式集群的节点唤醒方法及受控终端,该节点唤醒方法仅在当前状态中的领导者节点中配置WOL代理服务;通过WOL代理服务向其他节点广播WOL唤醒报文,以确定网络状态;WOL代理服务监听交换机连接所有节点的端口发出的STP协议报文,并在分布式集群的网络恢复时,交换机向前状态中的领导者节点发送TCN BPDU,并由当前状态中的领导者节点基于TCN BPDU触发WOL代理服务发送WOL唤醒报文至网络恢复前处于关机状态的节点的事件。通过本申请,实现了基于分布式集群所组建的云平台场景中对已经处于关机状态的节点执行远程重启操作,并减少人工干预。

Description

一种基于分布式集群的节点唤醒方法及受控终端
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于分布式集群的节点唤醒方法及受控终端。
背景技术
局域网唤醒(Wake on LAN,WOL)提供了一种远程唤醒计算机的功能,通过装有远程网络管理软件的服务器向客户端发送唤醒包来实现。客户端的网卡接收到唤醒包时启动客户端。在分布式集群中为了保证高可用及负载均衡,通常会在分布式集群中设置三个或者三个以上的物理节点(即“节点”),以对外提供高可用的一致性服务。通常分布式集群中的节点数量通常设置为奇数,以防止网络分区造成的服务不可用。
当分布式集群发生网络分区时,为了防止少数被分区的节点持续工作而写坏数据并保证数据的一致性,通常会对上述被分区的节点进行关机以执行隔离操作。当网络恢复时,必须基于人工干预的方式对处于关机状态的节点执行重启操作,从而导致基于人工重启处于关机状态的节点的技术手段存在分布式集群恢复时间较长及人工成本较大的缺陷。
申请人经过检索后发现,公开号为CN104518886A的中国发明专利公开了“服务器的网络唤醒方法和装置”。该现有技术通过对当前服务器的当前工作状态进行检测,并根据检测结果对PCIE接口的电源进行切换。申请人指出该现有技术仅满足了在PCIE接口在不同状态下的不同功耗需求,并能够匹配不同的网卡接口开发的不同主板所组建的服务器的远程唤醒。
申请人指出当网络出现故障时使用上述现有技术对服务器执行局域网唤醒时必须基于服务器自身硬件配置,更为重要的是该现有技术无法应用于分布式集群所组建的云平台场景中,用于唤醒关机状态的节点的唤醒报文无法到达指定的节点,从而无法实现远程唤醒。同时,由于无法知悉唤醒报文是否到达指定的节点,从而导致检测脚本会对分布式集群中的所有节点执行持续的请求,从而造成基于该分布式集群的云平台中出现网络拥塞。
有鉴于此,有必要对现有技术中的基于分布式集群的节点唤醒方法予以改进,以解决上述问题。
发明内容
本发明的目的在于揭示一种基于分布式集群的节点唤醒方法及受控终端,用以克服现有技术所存在诸多缺陷,尤其是为了解决基于分布式集群所组建的云平台场景中对已经处于关机状态的节点执行远程重启操作,确保在需要重启节点时能够自动唤醒被隔离的节点,并减少人工干预,同时实现对分布式集群中的二层网络连接检测与唤醒已经处于关机状态的节点的同步执行。
为实现上述第一个目的,本发明提供了一种基于分布式集群的节点唤醒方法,包括以下步骤:
S1、对分布式集群中所有节点设置初始化值,并记录所有节点的MAC地址;
S2、确定分布式集群中在当前状态中的领导者节点,并仅在当前状态中的领导者节点中配置WOL代理服务;
S3、通过所述WOL代理服务向其他节点广播WOL唤醒报文,以确定网络状态;
S4、WOL代理服务监听交换机连接所有节点的端口发出的STP协议报文,并在分布式集群的网络恢复时,交换机向前状态中的领导者节点发送TCN BPDU,并由当前状态中的领导者节点基于所述TCN BPDU触发WOL代理服务发送WOL唤醒报文至网络恢复前处于关机状态的节点的事件。
作为本发明的进一步改进,所有节点均配置Shell检测脚本或者人工录入方式获取所有节点的MAC地址,并将所有节点的MAC地址保存至当前状态中的领导者节点。
作为本发明的进一步改进,所述步骤S4中的WOL代理服务运行检测脚本,以通过所述检测脚本侦测分布式集群中的节点是否处于关机状态。
作为本发明的进一步改进,所述检测脚本为Ping命令检测脚本或者Shell检测脚本。
作为本发明的进一步改进,所述步骤S4执行完毕后还包括:对处于关机状态的节点加载所述初始化值并启动的操作,并在在启动关机状态的节点后,对分布式集群中的节点执行数据同步操作。
作为本发明的进一步改进,所述步骤S3执行完毕后还包括:判断分布式集群的网络是否恢复;若是,执行步骤S4;若否,对分布式集群执行网络恢复操作。
作为本发明的进一步改进,所述步骤S4还包括:将网络恢复前处于关机状态的节点所具有的MAC地址与交换机连接所述网络恢复前处于关机状态的节点的端口进行绑定,以在通过所述WOL代理服务向处于关机状态的节点发送WOL唤醒报文时,将WOL唤醒报文中所包含的目的MAC地址替换为处于关机状态的节点所具有的MAC地址,将所述WOL唤醒报文单播至处于关机状态的节点。
作为本发明的进一步改进,所述初始化值包括分布式集群中所有节点的网络适配器及BIOS的初始化值;
所述网络适配器选自物理网卡,虚拟网卡,PHY设备,基于ISA、EISA或者PCI协议的设备。
基于相同发明思想,本申请还揭示了一种受控终端,包括:
处理器,由至少一个存储单元组成的存储装置,以及
在处理器与存储装置之间建立通信连接的通信总线;
所述处理器用于执行存储装置中存储的一个或者多个程序,以实现上述任一项发明创造所揭示的一种基于分布式集群的节点唤醒方法。
作为本发明的进一步改进,所述受控终端至少被配置为计算机、服务器、数据中心、虚拟集群、便携式移动终端。
与现有技术相比,本发明的有益效果是:
首先,领导者节点所配置的WOL代理服务基于所述TCN BPDU触发WOL代理服务发送WOL唤醒报文至网络恢复前处于关机状态的节点的事件,实现了通过WOL唤醒报文同时具有对分布式集群的网络连接执行测试,以及网络回复后立刻恢复处于关机状态的节点执行开机操作的双重效果,避免了在分布式集群中已经处于关机状态的一个或者多个节点由于网络未恢复所导致的配置于领导者节点中的WOL代理服务频繁无序地发送WOL唤醒报文所导致的网络拥塞的现象;
其次,实现了基于分布式集群所组建的云平台场景中对已经处于关机状态的节点执行远程重启操作,确保了在需要重启节点时能够自动唤醒被隔离的节点,并减少人工干预,从而简化了基于分布式集群的节点的唤醒操作的简便性。
附图说明
图1为本发明一种基于分布式集群的节点唤醒方法的整体流程图;
图2为分布式集群中配置三个节点的拓扑图,其中,节点-3已经与交换机发生通讯中断;
图3为图2所示出的分布式集群当前状态中的领导者节点中配置WOL代理服务向已经处于关机状态的节点-3发送WOL唤醒报文的实例;
图4为本发明一种受控终端的拓扑图。
具体实施方式
下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。
术语“WOL packet”是指用于唤醒已经处于关机状态的节点的WOL唤醒报文;
术语“NIC”(Network Interface Controller)是指网络适配器,块被设计用来允许计算机在计算机网络上进行通讯的计算机硬件或者软件,其拥有唯一MAC地址,并可被理解为物理网卡或者虚拟网卡。
术语“节点”是指物理态或者虚拟态并具有独立的存储、运算、通信功能的计算机装置,例如物理机(PM)或者虚拟机(VM)或者超融合一体机。
实施例一:
参图1至图3所示,本实施例揭示了一种基于分布式集群的节点唤醒方法(以下简称“方法”)的一种具体实施例。
在本实施例中,该方法包括以下步骤S1至步骤S4。申请人指出步骤S1至步骤S4仅仅是为了便于技术方案的描述,各个步骤之间并非严格区分。同时,分布式集群中通常还有三个或者三个以上呈物理态的节点,且在某个时刻被设定为领导者(Leader)、追随者(Folllower)及候选者(Candidate);为简化表示,在本实施例中,该分布式集群10中部署了三个节点,即节点11、节点12与节点13,其中,节点11被视为当前状态中的领导者节点。
一种基于分布式集群的节点唤醒方法,包括以下步骤:
首先执行,步骤S1、对分布式集群10中所有节点设置初始化值,并记录所有节点的MAC地址。初始化值包括分布式集群中所有节点的网络适配器(即NIC)及BIOS的初始化值。网络适配器选自物理网卡,虚拟网卡,PHY设备,基于ISA、EISA或者PCI协议的设备。在节点11~节点13均处于正常状态时,管理员通过耦接所有节点的交换机20启用网络适配器的唤醒功能。BIOS是指每个节点的计算机主板上的基本输入输出设置。初始化设置包括对节点的设备电源的设置,例如备用电源设置,以保证每个节点中的计算机主板及网络适配器的工作电源符合远程唤醒的需求;以及,在主板的BIOS中的“Wake on LAN”选项、“Power onLAN”选项、“Wake on PCI Card”选项以及“Power on PCI Card”选项设置为“on”状态或者“启用”状态。网络适配器及节点的电源设备均必须支持WOL功能。同时,在分布式集群10的所有节点均处于正常状态时,通过arping指令查询并获取每个节点的网路适配器的MAC地址及IP地址,并将前述MAC地址和IP地址保存至与该分布式集群10连接的数据库(未示出)中。同时,需要确保分布式集群10中的所有节点均处于同一个局域网中,以保证二层互通,从而使得分布式集群10中的所有节点的子网和VLAN或者VXLAN技术对节点进行隔离,从而减少各个节点之间的广播。
然后,执行步骤S2、确定分布式集群10中在当前状态中的领导者节点,并仅在当前状态中的领导者节点中配置WOL代理服务110。参图2所示,该分布式集群10中配置节点11~节点13,若将节点11作为当前状态中的领导者节点,则仅在节点11中配置WOL代理服务110。节点11连接NIC111,节点12连接NIC121,节点13连接NIC131,NIC可为物理网卡,每个NIC均具有唯一的MAC地址。所有节点均配置Shell检测脚本或者人工录入方式获取所有节点的MAC地址,并将所有节点的MAC地址保存至当前状态中的领导者节点,即节点11。
然后,执行步骤S3、通过所述WOL代理服务110向其他节点广播WOL唤醒报文,以确定网络状态。确定网络状态是指确定分布式集群10中的所有节点是否恢复网络连接。WOL唤醒报文为基于以太网的计算机网络连接标准,向各个节点之间发送包含MAC地址的WOL唤醒报文以启动处于关机状态的节点。确定网络状态是指分布式集群10中的二层网络连接状态以及分布式集群10作为一个整体与外部(例如管理员或者用户或者互联网)之间的网络连接状态。确定网络状态可使得WOL唤醒报文能够以单播至已经处于关机状态的节点。申请人指出,本实施例中的“关机”可被理解为节点由于物理断电所导致的不可用实例。
例如,若节点13的MAC地址为11-22-33-44-55-66时,向节点13发送的WOL唤醒报文的数据格式如下所示。
FF:FF:FF:FF:FF:FF 112233445566 112233445566 112233445566
112233445566 112233445566 112233445566 112233445566
112233445566 112233445566 112233445566 112233445566
112233445566 112233445566 112233445566 112233445566
112233445566[ABABABABABAB]
其中,ABABABABABAB为六个字节的密码位置,用户或者管理员可以自行设定。
参图2所示,在本实施例中,节点13已经与交换机20断开网络连接,且与节点11及节点12无法建立二层网路连接。所述步骤S3执行完毕后还包括:判断分布式集群10的网络是否恢复;若是,执行步骤S4;若否,对分布式集群执行网络恢复操作。网络恢复操作是对已经处于关机状态的节点13进行唤醒操作并重启节点13的前提。
最后,执行步骤S4、WOL代理服务110监听交换机20连接所有节点的端口发出的STP协议报文,并在分布式集群10的网络恢复时,交换机20向前状态中的领导者节点(即节点11)发送TCN BPDU,并由当前状态中的领导者节点基于所述TCN BPDU触发WOL代理服务110发送WOL唤醒报文至网络恢复前处于关机状态的节点(即节点13)的事件。步骤S4中的WOL代理服务110运行检测脚本,以通过所述检测脚本侦测分布式集群中的节点是否处于关机状态,具体的,在本实施例中,检测脚本为Ping命令检测脚本或者Shell检测脚本。上述检测脚本在逻辑上可独立运行于前述WOL代理服务110中或者以独立的程序/插件的形式运行于每个节点中。
在本实施例中,在步骤S4执行完毕后还包括:对处于关机状态的节点13加载所述初始化值并启动的操作,并在在启动关机状态的节点后,对分布式集群10中的节点执行数据同步操作。初始化值参前述步骤S1部分所示。节点执行数据同步操作可使用看门狗组件予以实现。具体的,在每个节点中部署看门狗组件。通过所述看门狗组件侦测对应节点中业务单元的状态数据,并将分布式集群10中各个节点所部署的看门狗组件建立同步连接。避免由于节点失效所导致的脑裂现象,并能够在关机节点恢复后对各个节点之间数据执行同步处理,从而保证了分布式集群10中各个节点中数据的强一致性。进一步优选的,步骤S4还包括:将网络恢复前处于关机状态的节点所具有的MAC地址与交换机20连接所述网络恢复前处于关机状态的节点的端口进行绑定,以在通过所述WOL代理服务110向处于关机状态的节点发送WOL唤醒报文时,将WOL唤醒报文中所包含的目的MAC地址替换为处于关机状态的节点所具有的MAC地址,将所述WOL唤醒报文(即图3中的“WOL Packet”)单播至处于关机状态的节点。申请人尤其指出,一旦分布式集群10的节点13恢复网络连接,便可基于TCN协议发送拓扑更改通知,并通过交换机20监听分布式集群10的网络连通性及已经处于关机状态的节点在网络连通后受控于WOL唤醒报文的重启操作的双重检测,有效地避免了在已经关机的节点13由于已经脱离了分布式集群10所导致的无法接收到WOL唤醒报文的缺陷。
同时,在本实施例中,对网络恢复前处于关机状态的节点的端口进行绑定的目的是避免领导者节点所配置的WOL代理服务110广播WOL唤醒报文。由于执行了端口绑定,可对前文所揭示的WOL唤醒报文中的广播帧(即“FF:FF:FF:FF:FF:FF”)进行修改,例如可修改为“11:22:33:44:55:66”。
领导者节点所配置的WOL代理服务110基于所述TCN BPDU触发WOL代理服务发送WOL唤醒报文至网络恢复前处于关机状态的节点的事件,实现了通过WOL唤醒报文同时具有对分布式集群的网络连接执行测试,以及网络回复后立刻恢复处于关机状态的节点执行开机操作的双重效果,避免了在分布式集群中已经处于关机状态的一个或者多个节点由于网络未恢复所导致的配置于领导者节点中的WOL代理服务频繁无序地发送WOL唤醒报文所导致的网络拥塞的现象。尤其的,在本实施例中,通过上述技术方案避免了分布式集群10中的多个节点由于形成二层网路连接且传统的WOL唤醒报文是广播的形式无序地发送至不需要执行唤醒操作的节点(例如在实施例中为节点11与节点12),从而减少了节点11中的WOL代理服务110因发送WOL唤醒报文所可能导致的网络拥塞,这在大规模或者超大规模的分布式集群场景(例如:含有几百或者上千个节点)中的效果及技术优势更为明显。当分布式集群10中的节点13重启后,节点13重新加入分布式集群10,并完成数据同步后对外提供服务。该分布式集群10可视为分布式存储系统、分布式计算系统、高能计算系统。
综上,本实施例所揭示的基于分布式集群的节点唤醒方法能够减少人工干预,简化了基于分布式集群的节点的唤醒操作的简便性。
实施例二:
结合图4所示,本实施例揭示了一种受控终端100。
一种受控终端100,包括:
处理器51,由至少一个存储单元(即存储单元521至存储单元52i,其中,参数i取大于或者等于2的正整数)组成的存储装置52,以及在处理器51与存储装置52之间建立通信连接的通信总线53。通信总线53的形式并不需要予以具体限定,I2C总线、SPI总线、SCI总线、PCI总线、PCI-E总线、ISA总线等,并可根据电子设备500的具体类型及应用场景需求予以合理变更。通信总线53并非本申请发明点,故在本申请中不予展开陈述。
处理器51用于执行存储装置52中存储的一个或者多个程序,以实现如实施例一所揭示的一种基于分布式集群的节点唤醒方法。受控终端100至少被配置为计算机、服务器、数据中心、虚拟集群、便携式移动终端。存储单元521至存储单元52i可被配置为Ceph或者GlusterFS等分布式文件系统,也可被配置为RAID0~RAID7磁盘阵列,或者也可被配置为由一块或者多块硬盘或者可移动存储装置、数据库服务器、SSD(Solid-state Disk)、NAS存储系统或者SAN存储系统组成。
本实施例所揭示的受控终端100与实施例一所揭示的方法中具有相同部分的技术方案,请参实施例一所示,在此不再赘述。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (10)

1.一种基于分布式集群的节点唤醒方法,其特征在于,包括以下步骤:
S1、对分布式集群中所有节点设置初始化值,并记录所有节点的MAC地址;
S2、确定分布式集群中在当前状态中的领导者节点,并仅在当前状态中的领导者节点中配置WOL代理服务;
S3、通过所述WOL代理服务向其他节点广播WOL唤醒报文,以确定网络状态;
S4、WOL代理服务监听交换机连接所有节点的端口发出的STP协议报文,并在分布式集群的网络恢复时,交换机向前状态中的领导者节点发送TCN BPDU,并由当前状态中的领导者节点基于所述TCN BPDU触发WOL代理服务发送WOL唤醒报文至网络恢复前处于关机状态的节点的事件。
2.根据权利要求1所述的节点唤醒方法,其特征在于,所有节点均配置Shell检测脚本或者人工录入方式获取所有节点的MAC地址,并将所有节点的MAC地址保存至当前状态中的领导者节点。
3.根据权利要求1所述的节点唤醒方法,其特征在于,所述步骤S4中的WOL代理服务运行检测脚本,以通过所述检测脚本侦测分布式集群中的节点是否处于关机状态。
4.根据权利要求3所述的节点唤醒方法,其特征在于,所述检测脚本为Ping命令检测脚本或者Shell检测脚本。
5.根据权利要求1所述的节点唤醒方法,其特征在于,所述步骤S4执行完毕后还包括:对处于关机状态的节点加载所述初始化值并启动的操作,并在启动关机状态的节点后,对分布式集群中的节点执行数据同步操作。
6.根据权利要求1所述的节点唤醒方法,其特征在于,所述步骤S3执行完毕后还包括:判断分布式集群的网络是否恢复;若是,执行步骤S4;若否,对分布式集群执行网络恢复操作。
7.根据权利要求1至6中任一项所述的节点唤醒方法,其特征在于,所述步骤S4还包括:将网络恢复前处于关机状态的节点所具有的MAC地址与交换机连接所述网络恢复前处于关机状态的节点的端口进行绑定,以在通过所述WOL代理服务向处于关机状态的节点发送WOL唤醒报文时,将WOL唤醒报文中所包含的目的MAC地址替换为处于关机状态的节点所具有的MAC地址,将所述WOL唤醒报文单播至处于关机状态的节点。
8.根据权利要求7所述的节点唤醒方法,其特征在于,所述初始化值包括分布式集群中所有节点的网络适配器及BIOS的初始化值;
所述网络适配器选自物理网卡,虚拟网卡,PHY设备,基于ISA、EISA或者PCI协议的设备。
9.一种受控终端,其特征在于,包括:
处理器,由至少一个存储单元组成的存储装置,以及
在处理器与存储装置之间建立通信连接的通信总线;
所述处理器用于执行存储装置中存储的一个或者多个程序,以实现如权利要求1至8中任一项所述的一种基于分布式集群的节点唤醒方法。
10.根据权利要求9所述的受控终端,其特征在于,所述受控终端至少被配置为计算机、服务器、数据中心、虚拟集群、便携式移动终端。
CN202010945598.7A 2020-09-10 2020-09-10 一种基于分布式集群的节点唤醒方法及受控终端 Active CN112187877B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010945598.7A CN112187877B (zh) 2020-09-10 2020-09-10 一种基于分布式集群的节点唤醒方法及受控终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010945598.7A CN112187877B (zh) 2020-09-10 2020-09-10 一种基于分布式集群的节点唤醒方法及受控终端

Publications (2)

Publication Number Publication Date
CN112187877A CN112187877A (zh) 2021-01-05
CN112187877B true CN112187877B (zh) 2022-04-01

Family

ID=73920451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010945598.7A Active CN112187877B (zh) 2020-09-10 2020-09-10 一种基于分布式集群的节点唤醒方法及受控终端

Country Status (1)

Country Link
CN (1) CN112187877B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114285826B (zh) * 2021-12-28 2023-04-21 威创集团股份有限公司 分布式设备配置ip地址且检测冲突的方法、系统、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107015622A (zh) * 2017-04-20 2017-08-04 西北大学 一种spark集群断电自保护及来电自启动的方法
CN108322491A (zh) * 2017-01-17 2018-07-24 研祥智能科技股份有限公司 远程网络唤醒方法和装置
CN109117194A (zh) * 2018-07-20 2019-01-01 广东微云科技股份有限公司 一种跨网段远程唤醒方法及系统
CN109286529A (zh) * 2018-10-31 2019-01-29 武汉烽火信息集成技术有限公司 一种恢复RabbitMQ网络分区的方法及系统
WO2019182608A1 (en) * 2018-03-23 2019-09-26 Siemens Canada Limited System, method, and device for communication between network segments
CN110912780A (zh) * 2019-12-13 2020-03-24 无锡华云数据技术服务有限公司 一种高可用集群检测方法、系统及受控终端

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108322491A (zh) * 2017-01-17 2018-07-24 研祥智能科技股份有限公司 远程网络唤醒方法和装置
CN107015622A (zh) * 2017-04-20 2017-08-04 西北大学 一种spark集群断电自保护及来电自启动的方法
WO2019182608A1 (en) * 2018-03-23 2019-09-26 Siemens Canada Limited System, method, and device for communication between network segments
CN109117194A (zh) * 2018-07-20 2019-01-01 广东微云科技股份有限公司 一种跨网段远程唤醒方法及系统
CN109286529A (zh) * 2018-10-31 2019-01-29 武汉烽火信息集成技术有限公司 一种恢复RabbitMQ网络分区的方法及系统
CN110912780A (zh) * 2019-12-13 2020-03-24 无锡华云数据技术服务有限公司 一种高可用集群检测方法、系统及受控终端

Also Published As

Publication number Publication date
CN112187877A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
US10693813B1 (en) Enabling and disabling links of a networking switch responsive to compute node fitness
US10715411B1 (en) Altering networking switch priority responsive to compute node fitness
EP3255527B1 (en) Remote keyboard-video-mouse technologies
WO2017162173A1 (zh) 云服务器集群建立连接的方法和装置
US8185767B2 (en) Automatic management of a power state of a device with network connections
US8707290B2 (en) Firmware update in an information handling system employing redundant management modules
US7925795B2 (en) Method and system for configuring a plurality of network interfaces that share a physical interface
US10430082B2 (en) Server management method and server for backup of a baseband management controller
US20100077063A1 (en) System and method for emulating a computing device
EP2983339A1 (en) Node interconnection apparatus, resource control node and server system
CN107919994B (zh) 实现网络服务双机热备的方法及服务器
US10725883B2 (en) Externally triggered maintenance of state information of virtual machines for high availablity operations
CN107666493B (zh) 一种数据库配置方法及其设备
JP2018116680A (ja) 電源ユニット(psu)管理
US11349706B2 (en) Two-channel-based high-availability
US8943191B2 (en) Detection of an unresponsive application in a high availability system
US20210224167A1 (en) Method to Disable or Reboot Unresponsive Device with Active Uplink in a Ring Network
US20050066017A1 (en) Deterministically electing an active node
CN112187877B (zh) 一种基于分布式集群的节点唤醒方法及受控终端
WO2020088351A1 (zh) 设备信息发送的方法、计算机设备和分布式计算机设备系统
US20050066022A1 (en) Quiet resume on LAN
TWI507889B (zh) 用於保留及執行本機計算裝置的影像寫入之管理節點、方法、機器可存取媒體及系統
CN109428821B (zh) 服务器、管理互备设备路由的方法和存储介质
US11392423B2 (en) Method for running a quorum-based system by dynamically managing the quorum
CN114827080B (zh) Ip切换方法、系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant