CN110661637A - 分布式系统成员变更方法和分布式系统 - Google Patents

分布式系统成员变更方法和分布式系统 Download PDF

Info

Publication number
CN110661637A
CN110661637A CN201810703094.7A CN201810703094A CN110661637A CN 110661637 A CN110661637 A CN 110661637A CN 201810703094 A CN201810703094 A CN 201810703094A CN 110661637 A CN110661637 A CN 110661637A
Authority
CN
China
Prior art keywords
node
address
target node
distributed system
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810703094.7A
Other languages
English (en)
Inventor
白杨
陈雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201810703094.7A priority Critical patent/CN110661637A/zh
Priority to PCT/CN2019/076844 priority patent/WO2020001060A1/zh
Priority to EP19827288.2A priority patent/EP3817290B1/en
Publication of CN110661637A publication Critical patent/CN110661637A/zh
Priority to US17/125,318 priority patent/US11445013B2/en
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1044Group management mechanisms 
    • H04L67/1046Joining mechanisms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0889Techniques to speed-up the configuration process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0876Aspects of the degree of configuration automation
    • H04L41/0886Fully automatic configuration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1044Group management mechanisms 
    • H04L67/1048Departure or maintenance mechanisms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/34Network arrangements or protocols for supporting network services or applications involving the movement of software or configuration parameters 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching
    • H04L67/5682Policies or rules for updating, deleting or replacing the stored data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/40Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass for recovering from a failure of a protocol instance or entity, e.g. service redundancy protocols, protocol state redundancy or protocol service redirection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0668Management of faults, events, alarms or notifications using network fault recovery by dynamic selection of recovery network elements, e.g. replacement by the most appropriate element after failure

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

一种更高效率的分布式系统成员变更方案,包括:第一目标节点向管理服务器请求节点地址集合,其中,所述节点地址集合中包括了分布式系统中所有节点的地址;当第一目标节点的地址不在所述节点地址集合中,所述第一目标节点向分布式系统的主节点发送加入请求;所述主节点把所述第一目标节点的地址增加到所述节点地址集合中,以及指令所述分布式系统中的所有从节点把所述第一目标节点的地址增加到本地成员列表。

Description

分布式系统成员变更方法和分布式系统
技术领域
本申请涉及计算机领域,特别涉及分布式系统。
背景技术
分布式系统包括多个成员,分布式系统中的成员增加(或者减少)后,需要把成员的增加(或者减少)这一信息通知到各个成员,以便让集群中的成员可以获知集群中最新的成员情况。例如,成员可以通过在自己记录的成员列表中新增新的成员(或者删除原有成员)进行成员变更。
在业界,主要通过日志(log)同步技术实现成员变更,在成员发生增加(或者减少)后,集群的主节点获得成员发生增加(或者减少)的信息,把进行成员变更指令以操作日志的方式同步给各个从节点,从节点收到成员变更指令后按照操作日志更新自己记录的成员列表。
在现有技术中,假设成员变更前集群成员集合为C1,成员变更后集群成员为C2,下面对两阶段提交来执行成员变更进行介绍。第一阶段:主节点通知所有原有成员执行日志,将集群成员集合更新为{C1,C2}(也就是说集群成员既保存了C1又保存了C2)。在此期间每个原有成员的成员列表为C1(还没收到更新通知或者更新尚未完成)或者{C1,C2}(已经收到更新通知,并且完成了更新)。对于{C1,C2}列表来说,主节点必须同时满足C1集合的大多数和C2集合的大多数。换句话说需要满足一个原则:对于拥有C1列表的成员所认可的主节点、和对于拥有C2列表的成员所认可的主节点,是同一个节点。这样就保证了在成员变更过程中不会存在双主节点的场景。第二阶段:第一阶段成功(大多数成员或者所有成员成功的更新为{C1,C2}就可以认为第一阶段成功)后,主节点通知所有成员将通过执行日志把成员集合更新为C2。在更新完成前,每个成员的成员列表为{C1,C2}(更新完成前)或者C2(更新完成后)。
由上可以看出,上述使用日志的方案过于复杂,既要花费大量的时间又要耗费节点大量的资源,而且必须人工参与,增加了运维人员的工作量。
发明内容
第一方面,提供一种分布式系统成员变更方法,包括:第一目标节点向管理服务器请求节点地址集合,其中,所述节点地址集合中包括所述分布式系统中所有节点的地址,所述分布式系统主节点和多个从节点;当第一目标节点的地址不在所述节点地址集合中,所述第一目标节点向分布式系统的所述主节点发送加入请求,所述加入请求中包括所述第一目标节点的地址;在收到所述加入请求后,把所述成员增加指令中的所述第一目标节点的地址增加到所述主节点的本地成员列表中,所述主节点指令所述分布式系统中每个节点把所述第一目标节点的地址增加到本地成员列表。应用该方法,第一目标节点可以主动自发加入分布式系统,不再需要依赖运维人员手动配置主节点。而且不再使用日志作为技术手段,整个过程简洁高效,资源占用率低。
在所述第一方面的第一种可能实现中,所述第一目标节点创建所述第一目标节点的本地成员列表,所述第一目标节点的本地成员列表包括:所述分布式系统中所有节点的地址,以及所述第一目标节点的地址。该方案用于进行所述第一目标节点的配置,使所述第一目标节点认可自己成为所述分布式系统的成员。
在所述第一方面的第二种可能实现中,所述主节点指令所述分布式系统中的所述多个从节点中的每个从节点把所述第一目标节点的地址增加到所述本地成员列表,具体包括:所述主节点发送成员增加指令给所述每个从节点,其中,所述成员增加指令中包括所述第一目标节点的地址;所述主节点接收所述从节点对发送的成员增加响应,所述成员增加响应是所述成员增加指令的响应消息;所述主节点把所述第一目标节点的地址增加到本地成员列表,以及所述主节点发送成员增加生效指令给所有从节点,指示所有从节点在收到所述成员增加生效指令后,按照所述成员增加响应把所述第一目标节点的地址增加到本地成员列表。该方案介绍了在增加从节点的过程中,主节点和从节点直接的交互流程。
在所述第一方面的第三种可能实现中,所述第一目标节点向所述主节点发送所述加入请求,包括:所述第一目标节点通过向所述节点地址集合中的所有地址广播所述加入请求的方式,从而把所述加入请求发送给所述主节点。使用广播的方法,可以确保所述加入请求能够被的发送给主节点,避免主节点收不到加入请求。
在所述第一方面的第四种可能实现中,所述第一目标节点向所述主节点发送所述加入请求,包括:所述第一目标节点通过向第一目标节点向管理服务器请求节点地址集合之后,所述方法还包括下述步骤之一:所述主节点缓存收到的下一个加入请求;或者所述主节点缓存收到的离开请求。该方案可以避免多个成员变更请求并行处理所引起的冲突故障,并且避免其他加入/离开请求被丢失。
在所述第一方面的第五种可能实现中,所述成员增加生效指令具体包括COMMIT指令。该方案介绍了成员增加生效指令的具体内容。
在所述第一方面的第六种可能实现中,所述地址包括:节点ID,节点IP地址和节点端口号中的至少一种或者多种的组合。该方案介绍了地址的可能形式,地址还可以是其他形式,可以作为节点的唯一标记即可。
在所述第一方面的第七种可能实现中,在所述主节点收到另一个加入请求后,所述主节点记录成员变更标记,所述成员变更标记包括:变更类型和所述第三目标节点的地址;当在所述主节点按照另一个加入请求,指令所述分布式系统中的所述多个从节点中的每个从节点把所述第一目标节点的地址增加到本地成员列表之前,所述主节点故障;所述分布式系统中的从节点选举出新的主节点;所述新的主节点读取所述变更标记后,按照所述变更类型,指令所述分布式系统中的从节点把所述第三目标节点的地址增加到本地成员列表。该方案使得:在主节点故障后,新选出的主节点可以重新执行成员增加/删除操作。从而保证了成员增加/删除请求的可靠执行。
在所述第一方面的第八种可能实现中,在所述第一方面的第二种可能实现的基础上,所述方法还可以包括:第二目标节点发送离开请求给所述主节点;在收到所述离开请求后,所述主节点发送成员删除指令给所有从节点,其中,成员离开指令包括所述第二目标节点的地址;每个从节点在收到所述成员删除指令后,发送成员删除响应给所述主节点;所述主节点在收到所述从节点的成员删除响应后,把所述第二目标节点的地址从所述节点地址集合中删除;所述主节点把所述第二目标节点地址从本地成员列表中删除,所述主节点发送成员删除生效指令给所述每个从节点;所述每个从节点从所述本地成员列表中删除所述第二目标节点的地址。该方案介绍了如何从所述分布式系统中删除一个节点。
第二方面,提供一种节点集合,所述节点集合包括第一目标节点和分布式系统,所述分布式系统包括多个节点,所述分布式系统可以执行上述第一方面的方法,或者执行第一方面的各个可能实现。
第三方面,提供一种分布式系统成员变更方法,包括:第二目标节点向管理服务器请求节点地址集合,其中,所述分布式系统包括主节点和多个从节点,所述节点地址集合中包括所述分布式系统中所有节点的地址;当所述第二目标节点的地址在所述节点地址集合中,所述第二目标节点向所述分布式系统的所述主节点发送离开请求,所述离开请求中包括所述第二目标节点的地址;在收到所有所述从节点的所述离开请求后,所述主节点把所述第二目标节点的地址从所述主节点的本地成员列表中删除,以及指令所述分布式系统中的所述多个从节点中的每个从节点把所述第二目标节点的地址从本地成员列表中删除。删除流程可以由需要被删除的节点自行发起,不需要依赖运维人员手动配置主节点。并且删除流程未涉及日志,简洁高效、减少了系统资源的占用。
第三方面的第一种可能实现方式,所述主节点指令所述分布式系统中的所有从节点把所述第二目标节点的地址从本地成员列表中删除,具体包括:所述主节点发送成员删除指令给所述分布式系统中的所有从节点,其中,所述成员增加指令中包括所述第二目标节点的地址;收到所述成员删除指令的从节点发送成员删除响应给所述主节点;主节点确定收到所有从节点的所述成员删除响应后,把所述第二目标节点的地址从所述管理服务器的节点地址集合中删除,以及发送成员删除生效指令给所有从节点;所述从节点,在收到所述成员增加生效指令后,把所述第二目标节点的地址从本地成员列表中删除。该方案介绍了删除的具体流程,例如从节点和主节点的具体操作。
第四方面,提供一种分布式系统,所述分布式系统包括多个节点,所述分布式系统可以执行上述的第三方面的方法,或者执行第三方面的各个可能实现。
附图说明
图1是本发明分布式系统实施例拓扑图;
图2是在现有分布式系统中增加新成员的示意图;
图3是从现有分布式系统中删除已有成员的示意图;
图4是分布式系统成员变更方法流程图。
具体实施方式
分布式系统(也可以称为集群)包括多个节点,节点拥有计算能力,例如是计算机或者服务器。或者,节点是存储阵列的控制器。组成分布式系统的节点也被称为分布式系统的成员。按照节点的功能进行划分,可以把分布式系统的节点区分为主节点和从节点,主节点对从节点具有一定的管理功能。
参见附图1,分布式系统1包括:节点11、节点12、节点13、节点14以及节点15。其中节点11是主节点,其余节点是从节点。分布式系统2和管理服务器2通信。
本专利实施例中的分布式系统1可以是自选主的分布式系统。例如基于Paxos算法的分布式系统,或者基于zab算法,或者基于raft算法的分布式系统。所谓自选主,是指在主节点11故障后,不用依靠分布式系统外部的节点,依靠分布式系统内部的节点(也就是从节点12、从节点13、从节点14),可在这些从节点中自行选举出新的主节点。
由于分布式系统拥有多个(有时候甚至是数据巨大的)成员,因此涉及到节点上线和下线的问题。例如,分布式系统中的成员总数不足以满足业务的需求,那么就需要增加给分布式系统中增加新的成员,也就是上线新的成员;如果某个节点的可靠性降低或者出现了故障,或者节点总数远远大于需要的数量,就需要减少分布式系统中节点的数量,也就是下线已有成员。增加或者减少分布式系统中成员的数量,统称为分布式系统成员变更。参见附图2,节点16是所述分布式系统1之外的节点,需要增加到所述分布式系统1中,所述节点15和所述分布式系统1的整体可以称为节点集合。参见附图3,节点15是所述分布式系统1之外的节点,需要从所述分布式系统1中删除。
通常的两阶段日志法复杂度太高,而且必须由管理员手动在主节点上触发,既耗费了分布式系统大量的资源,又增加了管理员的负担。
如图4所示,本发明实施例提供一种分布式系统成员变更方法。
步骤11,第一目标节点(例如图2中的节点16)向管理服务器(管理服务器2)请求节点地址集合,其中,所述节点地址集合中包括了分布式系统中所有节点的地址。
第一目标节点是需要增加到分布式系统的节点。本步骤中,在不需要管理员参与的情况下,第一目标节点主动向管理服务器请求节点地址集合。
管理服务器可以是在分布式系统之外,也可以是分布式系统中具有存储功能的节点,只要拥有非易失性存储功能即可。例如,所述管理服务器也可以是所述第一目标节点。
节点地址集合中包括了分布式系统中所有节点的地址,节点地址用于区分不同的
节点,可以视为节点的标签。例如,节点地址是节点ID,节点IP地址中的一种或
者二者的组合,还可以是节点ID,节点IP地址和节点端口号的组合。
步骤12,第一目标节点在获取所述地址集合后,判断所述第一目标节点的地址是否在所述地址集合之中,从而确定所述第一目标节点是否是所述分布式系统已有的节点。
当第一目标节点的地址在所述节点地址集合中,意味着第一目标节点已经加入了所述分布式系统,退出本流程。
当所述第一目标节点的地址不在所述节点地址集合中,所述第一目标节点向分布式系统的主节点发送加入请求。所述加入请求包括所述第一目标节点的地址。
需要说明的是,所述第一目标节点向所述主节点发送加入请求的方式可以有多种,下面进行举例。
当所述第一目标节点无法获知所述主节点的地址,那么难以建立与所述主节点之间的点对点通信连接,那么可以通过使用节点地址集合向所述分布式系统中的所有节点发送广播的方式,把所述加入请求发送给所述主节点。还有另外一种方案,所述第一目标节点把加入请求发给所述分布式系统中的一个或者多个节点,如果收到加入请求的节点不是主节点,就继续往下传递所述加入请求,直至主节点收到所述加入请求为止。
当所述第一目标节点可以获得所述主节点的地址(例如把所述主节点的地址预存在某服务器中,所述第一目标节点可以从这个服务器获得主节点的地址),那么在获得所述主节点的地址之后,可以直接发送所述加入请求给所述主节点。
步骤13,所述主节点收到所述加入请求后,发送成员增加指令给所述分布式系统中的所有从节点,以便把所述第一目标节点加入所述分布式系统。其中,所述成员增加指令中包括所述第一目标节点的地址。
所述分布式系统中的每个节点(包括主节点和成员节点)都拥有成员列表,成员列表用于记录所述分布式系统中的所有成员(或者记录除了本节点外的所有成员),记录的具体信息可以是成员地址。
所述主节点使用成员列表中的成员地址,可以把所述成员增加指令发送给所有成员。
步骤14,收到所述成员增加指令的从节点,在收到所述成员增加指令后,发送成员增加响应给所述主节点。所述成员增加响应是所述成员增加指令的响应消息,用于告知所述主节点自己已经成功接收到所述成员增加指令。本步骤中,成员增加操作并不会被执行(也就是说,此时第一目标节点还不会被“增加”),在步骤16中才会执行成员的增加。收到成员增加指令的从节点,可以对成员增加指令进行缓存,在缓存成功后再发送所述成员增加指令响应。
步骤15,主节点接收到所有从节点发送的所述成员增加指令响应后,,根据所述成员增加指令中包括的所述第一目标节点的地址,把第一目标节点的地址增加到位于主节点的成员列表。
另外,主节点确定接收所有从节点发送的所述成员增加指令响应后,还可以向从节点发送成员增加生效指令,该指令用于指示从节点执行在步骤14中所缓存的成员增加指令。具体的,所述成员增加生效指令可以是执行(commit)指令。
此外,所述主节点还可以把所述第一目标节点的地址发送给所述管理服务器,使得所述管理服务器将所述第一目标节点的地址写入所述节点地址集合中。所述第一目标节点的地址增加到所述管理服务器的节点地址集合中,也就是对所述节点地址集合进行更新。在所述节点地址集合更新后,如果后续有新的阶段需要加入或者离开所述分布式集群,可以通过查询更新后的成员地址集合来判断自己是否属于所述分布式集群。
步骤16,所述从节点,在收到所述成员增加生效指令后,执行第一目标节点的增加操作(例如执行缓存中缓存的所述成员增加指令),也就是把所述第一目标节点的地址增加到从节点自己的本地成员列表。
对于所述分布式系统中的某个节点来说,增加第一目标节点的地址到本地成员列表,意味着承认第一目标节点成为所述分布式系统的成员。
需要说明的是,本发明各个实施例中的“本地”是针对节点而言。例如:以任意一个命名为A节点的节点举例。A节点的本地成员列表归属于A节点,A节点的处理器通过读取自己的成员列表可以获知A节点所在的分布式系统中除了A节点之外,还有哪些成员。这个成员列表可以存储在A节点上,某些情况下也可以存储在A节点外部。
步骤17,所述第一目标节点创建本地成员列表,所述第一目标节点创建的本地成员列表中包括:所述分布式系统中所有原有节点的地址。可选的,还可以进一步包括所述第一目标节点的地址。
在完成步骤15、16和17之后,所述第一目标节点创建了自己的本地成员列表,所述分布式系统中原有节点在内的所有节点更新了自己的本地成员列表,实现了所述第一目标节点加入所述分布式系统。由以上步骤可以看出,本发明实施例的方案提供了形成了一种成员“自动发现”的节点添加技术。新节点可以主动的添加分布式存储系统中,并且,原有分布式系统可以感知到新节点的加入。简化了运维人员在成员变更中的参与行为,使得整个成员变更过程更加自动化,智能化。
下面步骤18-23对从所述分布式系统中删除第二目标节点的过程进行介绍,删除所述第二目标节点的原因可以有多种,例如所述第二节点可靠性降低、所述分布式系统中资源过多、需要对所述第二目标节点进行更换等等。所述第二目标节点可以是所述分布式系统中除主节点外的任意节点(例如图3中的节点15)。例如可以是所述第一目标节点(节点16),当所述第二目标节点不是所述第一目标节点的情况下,删除节点的流程可以在增加节点的流程之前(或者之后)执行。也就是说,步骤11-17的流程和步骤18-23的流程是相对独立的,二者可以先后执行或者只执行任意一个,不并行执行即可。
步骤18,第二目标节点向管理服务器请求节点地址集合,其中,所述节点地址集合中包括了分布式系统中所有节点的地址。
第二目标节点是所述分布式系统中的需要下线的节点。本步骤中,在不需要管理员参与的情况下,第二目标节点主动向管理服务器请求节点地址集合。
步骤19,第二目标节点在获取所述地址集合后,判断所述第二目标节点的地址是否在所述地址集合之中。本步骤是可选的。
当第二目标节点的地址不在所述节点地址集合中,意味着第二目标节点已经不属于所述分布式系统,退出本流程。
当所述第二目标节点的地址在所述节点地址集合中,所述第二目标节点向分布式系统的主节点发送离开请求。所述离开请求中包括所述第二目标节点的地址。需要说明的是,在其他实施例中,也可以不经过步骤19的判断步骤,所述第二目标节点向分布式系统的主节点发送离开请求。在其他实施例中,判断是可选的,第二目标节点可以直接发送离开请求给主节点。
需要说明的是,所述第二目标节点向所述主节点发送离开请求的方式可以有多种,例如单播、组播、广播,只要能够把离开请求发送到主节点即可。
步骤20,所述主节点收到所述离开请求后,发送成员删除指令给所述分布式系统中的所有从节点,以便把所述第二目标节点离开所述分布式系统。其中,所述成员删除指令中包括所述第二目标节点的地址。
所述主节点使用成员列表中的成员地址,可以把所述成员删除指令发送给所有成员。
步骤21,收到所述成员删除指令的从节点,在收到所述成员删除指令后,发送成员删除响应给所述主节点,以便告知所述主节点自己已经成功接收到所述成员删除指令。所述成员删除响应是所述成员删除指令的响应消息,用于告知所述主节点自己已经成功接收到所述成员删除指令。本步骤中,成员删除指令可以缓存在从节点的内存中,删除操作在本步骤中并不会被执行(也就是说,此时所述第二目标成员还不会被“删除”),在步骤23中才会被执行。
收到成员删除指令的从节点,可以对成员删除指令进行缓存,在缓存成功后再发送所述成员删除指令。
步骤22,主节点收到所有从节点的所述成员删除响应后:发送成员删除生效指令给所有从节点。
此外,所述主节点还把所述第二目标节点的地址从主节点的成员列表中删除。
所述主节点还可以指示所述管理服务器把所述第二目标节点的地址从所述管理服务器的节点地址集合中删除。在所述节点地址集合更新后,如果后续有新的阶段需要离开或者离开所述分布式集群,可以通过查询更新后的成员地址集合来判断自己是否属于所述分布式集群。
其中,所述成员删除生效指令可以是执行(commit)指令,发送成员删除生效指令是用于指示从节点执行在步骤14中所缓存的成员删除指令。
步骤23,所述从节点,在收到所述成员删除生效指令后,执行读第二目标节点的删除操作(例如执行缓存中缓存的所述成员删除指令),也就是把所述第二目标节点的地址从各个从节点的本地成员列表中删除。
对于所述分布式系统中的某个节点来说,把第二目标节点的地址从本地成员列表中删除,意味着第二目标节点退出所述分布式系统,不再是所述分布式系统的成员。
执行完步骤22、23之后,所述第二目标节点不再是所述分布式系统的成员。
步骤24,可选的所述第二目标节点可以删除其本地成员列表。
由以上步骤18-24可以看出,本发明实施例的方案提供了了一种成员“主动删除自己”的节点删除技术。分布式系统中的节点可以主动把自己排除在所述分布式存储系统之外。并且,所述分布式系统可以感知到节点的删除请求并进行响应。简化了运维人员在成员变更中的参与行为,使得整个成员变更过程更加自动化,智能化。
可选的,在所述主节点收到所述加入请求后,且所述主节点发送成员增加生效指令给所有成员节点之前;或者,在所述主节点收到所述离开请求后,且所述主节点发送成员删除生效指令给所有成员节点之前,如果所述主节点收到新的加入请求或者新的离开请求,可以进行缓存。以避免同时执行两个成员变更请求。
可选的,在所述主节点收到某个加入请求后,且所述主节点发送成员增加生效指令给所有成员节点之前;或者,在所述主节点收到所述某个离开请求后,且所述主节点发送成员删除生效指令给所有成员节点之前,还可以在所述管理服务器中设置成员变更标记。成员变更标记用于记录变更的类型(增加或者删除),以及需要变更的节点的地址。如果在上述过程中主节点故障后,依靠成员变更标记所记录的变更类型和需要变更的节点的地址,新选出的主节点可以重新执行成员变更。换言之:在所述主节点收到加入/删除请求后,所述主节点记录成员变更标记。所述成员变更标记包括:变更类型(加入类型/删除类型)和需要增加的成员的地址(例如第三目标节点的地址);当在指令所述分布式系统中的所有从节点把所述第三目标节点的地址增加到本地成员列表之前,所述主节点故障;所述分布式系统选举出新的主节点;所述新的主节点读取所述变更标记后重新把所述第一目标节点的地址增加到所述的节点地址集合中,以及指令所述分布式系统中的所有从节点把所述第三目标节点的地址增加到本地成员列表。在主节点故障后,可以依据从节点之间的协商,选举出新的主节点,例如选择负载最小的从节点作为新的主节点,或者选择加入集群最早的从节点作为新的主节点。
根据以上原理,例如:在执行步骤13-17之中任一步骤时,出现主节点故障后,那么,根据成员变更标记所记录的信息,所述新的主节点可以重新从步骤13开始执行(发送成员增加指令给所述分布式系统中的所有从节点),以便重新执行步骤13-17,从而实现把所述第一目标节点增加到所述分布式系统。类似的,在执行步骤18-23的过程中,如果出现主节点故障,那么,依靠成员变更标记,新的主节点可以重新从步骤18开始执行(发送成员增加指令给所述分布式系统中的所有从节点),从而重新执行步骤18-23。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (17)

1.一种分布式系统成员变更方法,其特征在于,包括:
第一目标节点向管理服务器请求节点地址集合,其中,所述节点地址集合中包括所述分布式系统中所有节点的地址,所述分布式系统主节点和多个从节点;
当第一目标节点的地址不在所述节点地址集合中,所述第一目标节点向分布式系统的所述主节点发送加入请求,所述加入请求中包括所述第一目标节点的地址;
在收到所述加入请求后,把所述成员增加指令中的所述第一目标节点的地址增加到所述主节点的本地成员列表中,所述主节点指令所述分布式系统中每个节点把所述第一目标节点的地址增加到本地成员列表。
2.根据权利要求1所述的方法,还包括:
所述第一目标节点创建所述第一目标节点的本地成员列表,所述第一目标节点的本地成员列表包括:所述分布式系统中所有节点的地址,以及所述第一目标节点的地址。
3.根据权利要求1或2所述的方法,所述主节点指令所述分布式系统中的所述多个从节点中的每个从节点把所述第一目标节点的地址增加到所述本地成员列表,具体包括:
所述主节点发送成员增加指令给所述每个从节点,其中,所述成员增加指令中包括所述第一目标节点的地址;
所述主节点接收所述从节点对发送的成员增加响应,所述成员增加响应是所述成员增加指令的响应消息;
所述主节点把所述第一目标节点的地址增加到本地成员列表,以及所述主节点发送成员增加生效指令给所有从节点,指示所有从节点在收到所述成员增加生效指令后,按照所述成员增加响应把所述第一目标节点的地址增加到本地成员列表。
4.根据权利要求3所述的方法,所述成员增加生效指令具体包括COMMIT指令。
5.根据权利要求3所述的方法,所述主节点接收所述从节点对所述成员发送的成员增加响应之后,还包括:
所述主节点指示所述管理服务器把所述第一目标节点的地址增加所述管理服务器的所述节点地址集合中。
6.根据权利要求1所述的方法,所述第一目标节点向所述主节点发送所述加入请求,包括:
所述第一目标节点通过向所述节点地址集合中的所有地址广播所述加入请求,从而把所述加入请求发送给所述主节点。
7.根据权利要求1所述的方法,第一目标节点向管理服务器请求节点地址集合之后,所述方法还包括下述步骤中的至少一个:
所述主节点缓存后续收到的其他加入请求;
所述主节点缓存收到的离开请求。
8.根据权利要求1所述的方法,所述地址包括:
节点ID,节点IP地址和节点端口号中的至少一种或者多种的组合。
9.根据权利要求1-8中任一所述的方法,所述方法还包括:
第二目标节点发送离开请求给所述主节点;
在收到所述离开请求后,所述主节点发送成员删除指令给所述多个从节点中的每个从节点,其中,所述成员删除指令包括所述第二目标节点的地址;
每个从节点在收到所述成员删除指令后,发送成员删除响应给所述主节点;
所述主节点收到所述每个从节点的成员删除响应后,把所述第二目标节点的地址从所述节点地址集合中删除;所述主节点把所述第二目标节点地址从本地成员列表中删除,所述主节点发送成员删除生效指令给所述每个从节点;所述每个从节点从所述本地成员列表中删除所述第二目标节点的地址。
10.根据权利要求1所述的方法,在所述主节点指令所述分布式系统中每个节点把所述第一目标节点的地址增加到本地成员列表之后,还包括:
在所述主节点收到另一个加入请求后,所述主节点记录成员变更标记,所述成员变更标记包括:变更类型和所述第三目标节点的地址;
当在所述主节点按照另一个加入请求,指令所述分布式系统中的所述多个从节点中的每个从节点把所述第一目标节点的地址增加到本地成员列表之前,所述主节点故障;
所述分布式系统中的从节点选举出新的主节点;
所述新的主节点读取所述变更标记后,按照所述变更类型,指令所述分布式系统中的从节点把所述第三目标节点的地址增加到本地成员列表。
11.一种节点集合,所述节点集合包括第一目标节点和分布式系统,所述分布式系统包括主节点和多个从节点,其特征在于:
所述第一目标节点用于:向所述管理服务器请求节点地址集合,其中,所述节点地址集合中包括所述分布式系统中所有节点的地址;当所述第一目标节点的地址不在所述节点地址集合中,所述第一目标节点还用于:向所述主节点发送加入请求;
所述主节点用于:在所述主节点收到所述加入请求后,把所述第一目标节点的地址增加到所述主节点的本地成员列表中,以及指令所述分布式系统中的所述多个从节点中的每个从节点把所述第一目标节点的地址增加到本地成员列表。
12.根据权利要求11所述的节点集合,其中,所述第一目标节点还用于:
创建所述第一目标节点的本地成员列表,所述第一目标节点的本地成员列表包括:所述分布式系统中所有节点的地址,以及所述第一目标节点的地址。
13.根据权利要求11所述的节点集合,其中,所述主节点具体用于:
发送成员增加指令给所述每个从节点,其中,所述成员增加指令中包括所述第一目标节点的地址;
接收所述从节点发送的成员增加响应,所述成员增加响应是所述成员增加指令的响应消息;
发送成员增加生效指令给所有从节点,指示所有从节点在收到所述成员增加生效指令后,把所述成员增加指令中的第一目标节点的地址增加到本地成员列表。
14.一种分布式系统成员变更方法,其特征在于,包括:
第二目标节点向管理服务器请求节点地址集合,其中,所述分布式系统包括主节点和多个从节点,所述节点地址集合中包括所述分布式系统中所有节点的地址;
当所述第二目标节点的地址在所述节点地址集合中,所述第二目标节点向所述分布式系统的所述主节点发送离开请求,所述离开请求中包括所述第二目标节点的地址;
在收到所有所述从节点的所述离开请求后,所述主节点把所述第二目标节点的地址从所述主节点的本地成员列表中删除,以及指令所述分布式系统中的所述多个从节点中的每个从节点把所述第二目标节点的地址从本地成员列表中删除。
15.根据权利要求14所述的方法,所述主节点指令所述分布式系统中的所述多个从节点中的每个从节点把所述第二目标节点的地址从本地成员列表中删除,具体包括:
所述主节点发送成员删除指令给所述分布式系统中的所有从节点,其中,所述成员删除指令中包括所述第二目标节点的地址;
在收到所有从节点对所述成员删除指令的成员删除响应后,所述主节点把所述第二目标节点的地址从所述主节点的本地成员列表中删除,以及发送成员删除生效指令给所有从节点,以便指令
所述从节点通过执行所述成员删除指令,把所述第二目标节点的地址从本地成员列表中删除。
16.一种分布式系统,所述分布式系统包括主节点和多个从节点,所述多个从节点中包括第二目标节点,其特征在于:
所述第二目标节点,用于向管理服务器请求节点地址集合,其中,所述节点地址集合中包括分布式系统中所有节点的地址,所述分布式系统包括主节点和多个从节点;
当第二目标节点的地址在所述节点地址集合中,所述第二目标节点还用于向所述分布式系统的所述主节点发送离开请求,所述离开请求中包括所述第二目标节点的地址;
所述主节点用于,在收到所述离开请求后,把所述第二目标节点的地址从所述主节点的本地成员列表中删除,以及指令所述分布式系统中的所述多个从节点中的每个从节点把所述第二目标节点的地址从本地成员列表中删除。
17.根据权利要求16所述的分布式系统,所述主节点具体用于:
发送成员删除指令给所述分布式系统中的所有从节点,其中,所述成员删除指令中包括所述第二目标节点的地址;
在收到所有从节点的成员删除响应后,把所述第二目标节点的地址从所述主节点的本地成员列表中删除;以及发送成员删除生效指令给所有从节点,以便指令
所述从节点通过执行所述成员删除指令把所述第二目标节点的地址从本地成员列表中删除,其中,所述成员删除响应是所述成员删除指令的响应消息。
CN201810703094.7A 2018-06-30 2018-06-30 分布式系统成员变更方法和分布式系统 Pending CN110661637A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201810703094.7A CN110661637A (zh) 2018-06-30 2018-06-30 分布式系统成员变更方法和分布式系统
PCT/CN2019/076844 WO2020001060A1 (zh) 2018-06-30 2019-03-04 分布式系统成员变更方法和分布式系统
EP19827288.2A EP3817290B1 (en) 2018-06-30 2019-03-04 Member change method for distributed system, and distributed system
US17/125,318 US11445013B2 (en) 2018-06-30 2020-12-17 Method for changing member in distributed system and distributed system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810703094.7A CN110661637A (zh) 2018-06-30 2018-06-30 分布式系统成员变更方法和分布式系统

Publications (1)

Publication Number Publication Date
CN110661637A true CN110661637A (zh) 2020-01-07

Family

ID=68986036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810703094.7A Pending CN110661637A (zh) 2018-06-30 2018-06-30 分布式系统成员变更方法和分布式系统

Country Status (4)

Country Link
US (1) US11445013B2 (zh)
EP (1) EP3817290B1 (zh)
CN (1) CN110661637A (zh)
WO (1) WO2020001060A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860393A (zh) * 2021-01-20 2021-05-28 北京科技大学 一种分布式任务调度方法及系统
CN116185697A (zh) * 2023-05-04 2023-05-30 苏州浪潮智能科技有限公司 容器集群管理方法、装置、系统、电子设备及存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110661637A (zh) * 2018-06-30 2020-01-07 华为技术有限公司 分布式系统成员变更方法和分布式系统
CN112671601B (zh) * 2020-12-11 2023-10-31 航天信息股份有限公司 一种基于Zookeeper的接口监控系统及方法
US20230110067A1 (en) * 2021-10-07 2023-04-13 Samsung Electronics Co., Ltd. Systems, methods, and devices for near storage elasticity
CN113660350A (zh) * 2021-10-18 2021-11-16 恒生电子股份有限公司 分布式锁协调方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102984267A (zh) * 2012-12-07 2013-03-20 北京搜狐新媒体信息技术有限公司 一种实现分布式缓存节点动态更新到客户端的方法及系统
CN105656653A (zh) * 2014-11-14 2016-06-08 华为技术有限公司 分布式协调系统中新增节点的入网方法、装置和系统
CN106712981A (zh) * 2015-07-23 2017-05-24 阿里巴巴集团控股有限公司 一种节点变更通知方法及装置
CN106911728A (zh) * 2015-12-22 2017-06-30 华为技术服务有限公司 分布式系统中主节点的选取方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003223444A (ja) * 2002-01-30 2003-08-08 Fuji Photo Film Co Ltd コンピュータ装置およびコンピュータ装置を制御するプログラム
CN101877858B (zh) * 2010-06-24 2012-09-26 四川平安都市通讯科技有限公司 一种基于无线分布式系统的组网方法
US8412689B2 (en) * 2010-07-07 2013-04-02 Microsoft Corporation Shared log-structured multi-version transactional datastore with metadata to enable melding trees
US8867996B2 (en) * 2011-01-14 2014-10-21 Alcatel Lucent Area tracking systems and methods of tracking electronic devices
CN107222520B (zh) * 2017-04-25 2020-09-11 天津大学 一种基于定向扩散算法的分布式系统
CN110661637A (zh) * 2018-06-30 2020-01-07 华为技术有限公司 分布式系统成员变更方法和分布式系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102984267A (zh) * 2012-12-07 2013-03-20 北京搜狐新媒体信息技术有限公司 一种实现分布式缓存节点动态更新到客户端的方法及系统
CN105656653A (zh) * 2014-11-14 2016-06-08 华为技术有限公司 分布式协调系统中新增节点的入网方法、装置和系统
CN106712981A (zh) * 2015-07-23 2017-05-24 阿里巴巴集团控股有限公司 一种节点变更通知方法及装置
CN106911728A (zh) * 2015-12-22 2017-06-30 华为技术服务有限公司 分布式系统中主节点的选取方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860393A (zh) * 2021-01-20 2021-05-28 北京科技大学 一种分布式任务调度方法及系统
CN112860393B (zh) * 2021-01-20 2024-03-15 北京科技大学 一种分布式任务调度方法及系统
CN116185697A (zh) * 2023-05-04 2023-05-30 苏州浪潮智能科技有限公司 容器集群管理方法、装置、系统、电子设备及存储介质
CN116185697B (zh) * 2023-05-04 2023-08-04 苏州浪潮智能科技有限公司 容器集群管理方法、装置、系统、电子设备及存储介质

Also Published As

Publication number Publication date
US11445013B2 (en) 2022-09-13
WO2020001060A1 (zh) 2020-01-02
EP3817290A1 (en) 2021-05-05
EP3817290A4 (en) 2021-07-21
EP3817290B1 (en) 2024-07-24
US20210136145A1 (en) 2021-05-06

Similar Documents

Publication Publication Date Title
CN110661637A (zh) 分布式系统成员变更方法和分布式系统
US10674486B2 (en) System, security and network management using self-organizing communication orbits in distributed networks
CN109729111B (zh) 用于管理分布式系统的方法、设备和计算机程序产品
CN107295080B (zh) 应用于分布式服务器集群的数据存储方法和服务器
CN106060088B (zh) 一种服务管理方法及装置
EP3291487B1 (en) Method for processing virtual machine cluster and computer system
WO2017152860A1 (zh) 一种心跳信息发送方法、装置及心跳发送节点
CN111817967A (zh) 区块链网络的通信优化系统、注册方法及报文转发方法
CN106230622B (zh) 一种集群实现方法及装置
CN107547374B (zh) 一种聚合路由处理方法和装置
CN114244810A (zh) 虚拟ip管理方法、装置、电子设备和存储介质
CN114090342A (zh) 存储容灾的链路管理方法及消息执行节点、存储控制集群
CN107667513B (zh) 用于远程网络拓扑发现的系统和方法
CN111339139A (zh) 数据处理方法、装置、设备和存储介质
WO2020010906A1 (zh) 操作系统os批量安装方法、装置和网络设备
CN114448866A (zh) 网络域的管控方法、网络系统、设备及存储介质
CN108712297B (zh) 一种物联网节点设备自主切换网关的方法
US9015518B1 (en) Method for hierarchical cluster voting in a cluster spreading more than one site
CN110572290B (zh) 主设备确定方法、装置、电子设备、存储介质及网络系统
CN111064618B (zh) 一种服务器高可用的实现方法、装置、设备和存储介质
EP4096192B1 (en) Resilient routing systems and methods for hosted applications
CN110958182B (zh) 一种通信方法及相关设备
KR102323431B1 (ko) 이중화 제공 방법
KR20170007053A (ko) M2M/IoT 플랫폼에서 트랜잭션 방법 및 시스템
KR101467022B1 (ko) 콘텐츠 전달에 최적화된 스마트네트워크에서 멀티 도메인 기반 오버레이 네트워크 구성 및 관리 방법과 그 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200107