CN114448996A - 基于计算存储分离框架下的冗余存储资源的共识方法和系统 - Google Patents
基于计算存储分离框架下的冗余存储资源的共识方法和系统 Download PDFInfo
- Publication number
- CN114448996A CN114448996A CN202210219296.0A CN202210219296A CN114448996A CN 114448996 A CN114448996 A CN 114448996A CN 202210219296 A CN202210219296 A CN 202210219296A CN 114448996 A CN114448996 A CN 114448996A
- Authority
- CN
- China
- Prior art keywords
- node
- storage
- log
- cluster
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 125
- 238000000926 separation method Methods 0.000 title claims abstract description 17
- 238000004364 calculation method Methods 0.000 title description 5
- 230000008569 process Effects 0.000 claims abstract description 93
- 230000010076 replication Effects 0.000 claims abstract description 72
- 238000005516 engineering process Methods 0.000 claims abstract description 39
- 238000004590 computer program Methods 0.000 claims description 6
- 230000002085 persistent effect Effects 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000006399 behavior Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 239000012634 fragment Substances 0.000 claims description 2
- 230000002950 deficient Effects 0.000 abstract 1
- 230000008859 change Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/104—Peer-to-peer [P2P] networks
- H04L67/1044—Group management mechanisms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1095—Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Hardware Redundancy (AREA)
Abstract
本发明公开一种基于计算存储分离框架下的冗余存储资源的共识方法和系统,有效改善集群系统可用性,尤其是在可用计算资源较少的情况,提高计算存储分离框架下Raft共识集群的冗余存储资源的利用率。以常见共识技术为基础的数据复制技术,过多的依赖冗余计算资源,在计算与存储两种冗余资源的利用率上缺少平衡性。本发明借助冗余存储资源完成共识过程中的日志复制和Leader节点选举的过程,从而在可用计算资源缺乏的时候借助冗余存储资源,保证集群的系统可用性。在云计算环境应用本发明,结果表明本发明有效改善集群的系统可用性,同时保证了数据的安全性。
Description
技术领域
本发明涉及一种于计算存储分离框架下的冗余存储资源的共识方法和系统,属于电子数字数据处理技术领域。
背景技术
伴随着互联网应用数量的快速增长,各种类型的数据呈现爆炸式增长,各大公司的数据量已经达到EB/ZB级别。为了避免单点存储成为系统高可用与高扩展的瓶颈,分布式数据系统通常会采用数据复制技术,即在多个物理节点上保存同一份数据的多个副本。数据副本的引入缩短了用户与服务器之间的距离,降低了访问的延迟。并且,避免了高并发访问下单点失效引起的系统崩溃,提高了系统的可用性与容错性。
计算存储分离是分布式集群中的一个常见搭建方式。在该框架下,集群中的海量的持久化数据会被集中保存在多个专门的节点中,作为集群的服务存在提供其他节点使用。这些专门保存海量数据的节点称为存储节点,组成集群的冗余存储资源。其他使用存储节点提供服务的节点,统称为计算节点,组成集群的冗余计算资源,可以根据需求部署多种类型的服务。
提高了系统的可用性与容错性的关键在于,充分利用集群中各种冗余资源,避免单一资源的可用性影响整体的可用性,产生短板效应。以常见共识技术为基础的数据复制技术,在日志复制与Leader节点选举的过程中,过多的依赖冗余计算资源,在计算与存储两种冗余资源的利用率上缺少平衡性,造成可用性瓶颈。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提供一种基于计算存储分离框架下冗余存储资源的共识方法和系统,该发明基于常见的Raft技术,改善集群可用计算资源受较大冲击时的共识技术的整体可用性。常见的Raft技术在可用计算资源较少的情况下不可用,而本发明提高共识过程中冗余存储资源的利用率,在保持数据的安全性等共识技术特性的前提下,改善传统共识技术集群的可用性,有效利用冗余存储资源,能够改善计算存储分离框架下的冗余计算资源和存储资源利用率的平衡性。
技术方案:一种基于计算存储分离框架下冗余存储资源的共识方法,改善可用计算资源较少场景下的系统可用性,保证数据的安全性,并提高计算存储分离框架下Raft共识集群的冗余存储资源的利用率;主要包含:
3)基于冗余存储资源的日志复制过程;
4)基于冗余存储资源的Leader节点选举过程。
基于冗余存储资源的日志复制过程:
当客户端向复制状态机服务器集群提交了一个请求,集群中的节点会将该请求写入本地的日志当中。此后,复制状态机服务器集群会尝试将该日志项复制到集群中的所有日志中。当集群中的超过一半的节点,都接受了这个更改,那么该请求将会被提交,并被计算节点中的其他服务执行。这一过程即为日志复制。与常见的共识技术的日志复制过程不同,本技术将日志项写入存储节点中,借助冗余存储资源保证可用性与数据的安全性,只需要少量的运行本技术的计算节点推动。为了保证集群中不会出现冲突的日志项,本技术的日志复制过程,会将整个集群的计算节点划分为两种角色:Leader节点和Follower节点。集群只有唯一的Leader节点推动日志复制过程,将新的客户端请求以日志项的形式,写入存储节点并持久化保存。Leader节点复用Raft技术维护计算节点中的状态,包含Term值、复制日志以及存储节点进展的跟踪。如果由于通信等原因,导致一些日志项没有成功写入存储节点中,那么Leader节点按照Raft技术的方式,将多个未写入的日志项一并复制到存储节点,直到成功写入。在本技术的日志复制过程中,Leader节点的流程如下:
1)Leader节点L收到来自客户端的请求,将其添加到本地的日志中,并将该日志项写入集群中的所有存储节点中,对于每一个存储节点N:
a)生成MsgApp消息AE(t,L→N,ti,e[i+1,i+k],c)写入存储节点N,其中t表示Leader节点L当前的Term值,L→N表示从节点L写入存储节点N,ti,表示节点L中第i个日志项的Term值,e[i+1,i+k]表示节点L中第i+1到i+k个日志项,c表示节点L中前c个日志项已经提交;
b)读取存储节点N来自其他计算节点的更新部分,如果更新部分中Term值的最大值tmax超过存储节点的已知的最大Term值N.t,将N.t更新为tmax,与此同时分析生成真实日志进展N.e;
c)如果更新后MsgApp消息携带的Leader节点Term值AE.t等于N.t,且MsgApp消息携带的日志项片段AE.e添加到N.e中,那么MsgApp消息就成功写入存储节点N中。
2)如果集群中超过一半的存储节点都成功写入该日志项,则该日志已提交。节点L将成功提交的结果反馈给客户端。
集群中的其他计算节点都是Follower节点,总是定期读取指定的存储节点N,因而每次需要处理的更新规模较大。通过更新的预处理,如果一个MsgApp消息m1中的日志项下标-Term对(i,ti)在另外一个MsgApp消息m2中能找到拥有相同下标和Term值的日志项,那么将m2中下标超过i的日志项删除,将m1中的全部日志项添加到m2日志项的尾部。通过依次将多个MsgApp合并成一个MsgApp,减少存储节点真实日志进展N.e的生成难度。在生成N.e之后,就需要按照N.e来更新本地日志。本技术在日志复制过程中复用Raft技术中Leader的保活措施,因此只要集群中的Leader正常运行,集群中的Follower节点就能从对应的存储节点N中读到更新,尽管这些更新可能不会对N.e产生变更。
在整个日志复制的过程中,日志项的复制发生在Leader节点和存储节点之间,Leader节点与Follower节点之间是解耦的,通过存储节点完成更新。即使当前只有一个Leader节点在正常运行,只要正常运行的存储节点超过总数的一半,那么日志复制的过程就能够正常运行。
基于冗余存储资源的Leader节点选举过程:
本技术依赖Leader节点完成日志复制过程,可是在集群初始化或者由于分布式环境下的各类故障导致集群Leader节点无法服务时,需要集群及时从其他计算节点中,选举出一个新的Leader节点,继续进行日志复制的过程,保证集群的可用性。Leader节点选举要求,最终产生的新Leader节点必须是全局唯一的,保证日志复制正常运行。在Leader节点选举的过程中,整个集群的计算节点划分为两种角色:Candidate节点和Follower节点,其中Candidate节点将MsgVote消息保存到存储节点中,如果在存储节点上没有发现相同或者更大的Term值,并且存储节点上没有发现比Candidate节点更新的日志项,那么就可以确认该选票有效;而Follower节点并不参与投票,与日志复制过程中的行为一样,只需要关注当前集群是否有新的Leader节点通过Leader节点选举产生。为了保证日志复制过程中复制的都是同一个Leader节点的日志项,本技术沿用Raft技术中的Term值对Leader节点进行区分。如果发现两个Term值的Leader节点同时进行日志复制,所有计算节点总是以更大Term值的为准。Term值每次在Leader节点选举时都会增加,每个Term值最多选出一个Leader节点。Follower节点会设置超时时限,在对应的存储节点超过这一时限没有更新的时候转化为Candidate节点,并且自增本地的Term值,开始Leader节点选举。在Leader节点选举的过程中,可能会产生多个Candidate节点,甚至多个Candidate以相同的Term值,参与Leader节点选举的过程,因此Candidate节点在读取到与自己相同或者更大的Term值的其他节点的选票的时候,应当立刻退出选举,减少竞争规模。Follower节点在转变为Candidate节点之前可能存在日志落后的现象,因此在Candidate节点确认选票的同时,也会确认本地日志是否落后。在本技术的Leader节点选举过程中,Candidate节点的流程如下:
1)Follower节点F发现存储节点长期没有更新,转变为Candidate节点C,自增本地的Term值开始Leader节点选举过程,并将选票写入集群中的所有存储节点中,对于每一个存储节点N:
a)生成MsgVote消息RV(t,C→N,ti,i)写入存储节点N,其中i表示Candidate节点C当前的Term值,C→N表示从节点C写入存储节点N,ti表示节点C中最后一个日志项的Term值,i表示节点C中最后一个日志项的下标;
b)读取节点N来自其他计算节点的更新部分,分析生成存储节点的已知的最大Term值N.t,以及真实日志进展N.e;
c)检查MsgVote携带的Term值RV.t是否大于N.t,且C.e不落后于N.e。
2)如果集群中超过一半的存储节点上没有发现相同或者更大的Term值,且没有发现比节点更C新的日志项,则Candidate节点C就会成功晋选成为Leader节点,并立刻广播MsgApp。否则,节点C会重新退化为Follower节点。
在整个Leader节点选举的过程中,Follower节点只需要从存储节点中获取当前的更新即可,不参与选举的过程,因此本技术中原本在Raft技术中用于保存Follower节点投票结果的VoteFor值一直被赋值为空即可。Candidate节点通过存储节点进行选举,Follower节点不参与投票。只要正常运行的存储节点超过总数的一半,那么Leader节点选举的过程就能够正常运行。
一种基于计算存储分离框架下冗余存储资源的共识系统,包含:基于冗余存储资源的日志复制模块和基于冗余存储资源的Leader节点选举模块;
基于冗余存储资源的日志复制模块:当客户端向复制状态机服务器集群提交了一个请求,将日志项写入存储节点中,将整个集群的计算节点划分为两种角色:Leader节点和Follower节点;集群只有唯一的Leader节点推动日志复制过程,将新的客户端请求以日志项的形式,写入存储节点并持久化保存;
基于冗余存储资源的Leader节点选举模块:在集群初始化或者由于分布式环境下的各类故障导致集群Leader节点无法服务时,需要集群及时从其他计算节点中,选举出一个新的Leader节点,继续进行日志复制的过程,保证集群的可用性。
系统的具体实现过程和方法相同。
一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如上所述的基于计算存储分离框架下冗余存储资源的共识方法。
一种计算机可读存储介质,该计算机可读存储介质存储有执行如上所述的基于计算存储分离框架下冗余存储资源的共识方法的计算机程序。
有益效果:与现有技术相比,本发明提供的基于计算存储分离框架下冗余存储资源的共识方法,有效改善可用计算资源较少场景下的系统可用性,保证数据的安全性,提高计算存储分离集群中的冗余存储资源的利用率。在Raft共识技术的基础上,给出了基于冗余存储节点的日志复制和Leader节点选举过程。有效的改善了集群的系统可用性,同时保证数据安全性。
附图说明
图1为本发明实施例的日志复制过程中的计算节点与存储节点关系示意图;
图2为本发明实施例的Leader节点选举过程中的计算节点与存储节点关系示意图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
基于计算存储分离框架下冗余存储资源的共识方法,其主要包含:
1)基于冗余存储资源的日志复制过程;
2)基于冗余存储资源的Leader节点选举过程。
基于冗余存储资源的日志复制过程:
当客户端向复制状态机服务器集群提交了一个请求,集群中的节点会将该请求写入本地的日志当中。此后,复制状态机服务器集群会尝试将该日志项复制到集群中的所有日志中。当集群中的超过一半的节点,都接受了这个更改,那么该请求将会被提交,并被计算节点中的其他服务执行。这一过程即为日志复制。与常见的共识技术的日志复制过程不同,本技术将日志项写入存储节点中,借助冗余存储资源保证可用性与数据的安全性,只需要少量的运行本技术的计算节点推动。为了保证集群中不会出现冲突的日志项,本技术的日志复制过程,会将整个集群的计算节点划分为两种角色:Leader节点和Follower节点。集群只有唯一的Leader节点推动日志复制过程,将新的客户端请求以日志项的形式,写入存储节点并持久化保存。Leader节点复用Raft技术维护计算节点中的状态,包含Term值、复制日志以及存储节点进展的跟踪。如果由于通信等原因,导致一些日志项没有成功写入存储节点中,那么Leader节点按照Raft技术的方式,将多个未写入的日志项一并复制到存储节点,直到成功写入。在本技术的日志复制过程中,Leader节点的流程如下:
1)Leader节点L收到来自客户端的请求,将其添加到本地的日志中,并将该日志项写入集群中的所有存储节点中,对于每一个存储节点N:
a)生成MsgApp消息AE(t,L→N,ti,e[i+1,i+k],c),写入存储节点N;
b)读取存储节点N来自其他计算节点的更新部分,分析生成存储节点的已知的最大Term值N.t,以及真实日志进展N.e;
c)对照N.t和N.e,检查MsgApp消息是否成功写入存储节点N中;
2)如果集群中超过一半的存储节点都成功写入该日志项,则该日志已提交。节点L将成功提交的结果反馈给客户端。
对于MsgApp,其中t表示节点L的Term值,通过Leader节点选举的过程产生。Leader节点的日志复制过程,该Term值会随着日志项写入到存储节点中。在领导人选举的中间过程,可能会短暂出现多个Leader的情况,因此如果在存储节点中,发现了来自其他Leader节点、更大的Term值,节点L立刻转变Follower节点,并更新本地的Term值。MsgApp中的e[i+1,i+k]携带了节点L的本地日志中的第i+1到i+k的日志项,且日志中的第i项的Term为ti。存储节点真实日志进展N.e在日志复制过程中增量式更新,而N.e生成的关键在于日志项下标-Term对(i,ti)。在一轮日志复制的过程中,对于节点N中来自节点L、或者其他Leader节点的MsgApp,当上一轮分析的日志进展N.e中存在日志项,满足下标为i且Term值为ti,那么其中的日志项更新添加到这一轮分析的日志进展N.e中。如果本轮生存的真实日志进度N.e落后,节点L就会对冲突的部分进行重传,不断减少i的值直到找到满足N.e中存在匹配的(i,ti)。MsgApp中携带当前已提交日志项下标c,表示节点L在一个由m个存储节点的集群中,前c个日志项已经成功写入至少个存储节点时。此时这些日志项在之后任何的日志复制过程中都不会改变,因为任意读取集群中超过一半的。集群中的所有计算节点可以安全的执行这些日志项。该值总是单调非递减的,不会出现已执行的日志项重新变回非提交状态的情况。
集群中的其他计算节点都是Follower节点,总是定期读取指定的存储节点N,因而每次需要处理的更新规模较大。通过更新的预处理,将其中能够根据日志项下标-Term对(i,ti)进行日志项拼接的MsgApp合并成一个MsgApp,减少存储节点真实日志进展N.e的生成难度。在生成N.e之后,就需要按照N.e来更新本地日志。本技术在日志复制过程中复用Raft技术中Leader的保活措施,因此只要集群中的Leader正常运行,集群中的Follower节点就能从对应的存储节点N中读到更新,尽管这些更新可能不会对N.e产生变更。
如图1所示,在整个日志复制的过程中,日志项的复制发生在Leader节点和存储节点之间,Leader节点与Follower节点之间是解耦的,通过存储节点完成更新。即使当前只有一个Leader节点在正常运行,只要正常运行的存储节点超过总数的一半,那么日志复制的过程就能够正常运行。
基于冗余存储资源的Leader节点选举过程:
本技术依赖Leader节点完成日志复制过程,可是在集群初始化或者由于分布式环境下的各类故障导致集群Leader节点无法服务时,需要集群及时从其他计算节点中,选举出一个新的Leader节点,继续进行日志复制的过程,保证集群的可用性。Leader节点选举要求,最终产生的新Leader节点必须是全局唯一的,保证日志复制正常运行。在Leader节点选举的过程中,整个集群的计算节点划分为两种角色:Candidate节点和Follower节点,其中Candidate节点将选票保存到存储节点中,并确认该选票是否有效;而Follower节点并不参与投票,与日志复制过程中的行为一样,只需要关注当前集群是否有新的Leader节点通过Leader节点选举产生。Follower节点会在对应的存储节点长期没有更新的时候转化为Candidate节点,并且自增本地的Term值,开始Leader节点选举。在Leader节点选举的过程中,可能会产生多个Candidate节点,甚至多个Candidate以相同的Term值,参与Leader节点选举的过程,因此Candidate节点在读取到与自己相同或者更大的Term值的其他节点的选票的时候,应当立刻退出选举,减少竞争规模。Follower节点在转变为Candidate节点之前可能存在日志落后的现象,因此在Candidate节点确认选票的同时,也会确认本地日志是否落后。在本技术的Leader节点选举过程中,Candidate节点的流程如下:
1)Follower节点F发现存储节点长期没有更新,转变为Candidate节点C,自增本地的Term值开始Leader节点选举过程,并将选票写入集群中的所有存储节点中,对于每一个存储节点N:
a)生成MsgVote消息RV(t,C→N,ti,i),写入节点N;
b)读取节点N来自其他计算节点的更新部分,分析生成存储节点的已知的最大Term值N.t,以及真实日志进展N.e;
c)检查MsgVote携带的Term值RV.t是否大于N.t,且C.e不落后于N.e。
2)如果集群中超过一半的存储节点的选票都满足要求,则Candidate节点C就会成功晋选成为Leader节点,并立刻广播MsgApp。否则,节点C会重新退化为Follower节点。
对于MsgVote,其中t表示当前节点C的Term值在自增后的值。Candidate节点在开始Leader节点选举之前,会自增Term值。因此如果旧Leader节点进行日志复制与Leader节点选举同时进行,旧Leader节点就会在确认环节发现更新的Term值,因而退出日志复制。MsgVote中的i和ti分别为Candidate节点本地日志中的最后一个日志项的下标和Term值,通过将存储节点真实日志进展N.e与RV中的最后一项的下标-Term值对(i,ti)进行比对,即满足RV.ti>lastLogTerm(N.e),或者RV.ti=lastLogTerm(N.e)∧RV.i≥lastLogIndex(N.e)。当Candidate成功晋选,就立刻以当前的Term值,开始日志复制的过程。Candidate节点Leader节点选举的过程中,如果读到了携带相同或者更大的Term值的MsgApp之后,就说明当前集群中已经产生了新的Leader。此时,Candidate节点立刻退出选举,并转变回Follower节点。
在整个Leader节点选举的过程中,Follower节点只需要从存储节点中获取当前的更新即可,不参与选举的过程,因此本技术中的Follower节点相较于Raft技术的,VoteFor值一直被赋值为空即可。如图2所示,Candidate节点通过存储节点进行选举,Follower节点不参与投票。只要正常运行的存储节点超过总数的一半,那么Leader节点选举的过程就能够正常运行。
该方法的使用过程如下:
1)部署计算存储分离框架下的共识技术集群。选择多个节点作为存储节点提供集群的持久化存储服务;共识技术集群常用于搭建集群协同服务,选择集群中的非存储节点部署共识技术,本技术实现选择etcd项目作为共识协同服务基础进行改装。集群协同服务提供全局共享变量的读写接口,对客户端的读写请求响应成功或失败。
2)客户端发起读写请求。多个客户端并发地向协同服务集群发起写请求,收到响应后,如果响应状态为成功,则将请求的相关信息记录下来,该请求对应一个操作,其中信息包括变量名和变量值。客户端读写请求负载由Benchmark生成。
3)检测数据安全性与集群可用性。多个客户端并发地向协同服务集群发起写请求。在写入阶段通过Kill的方式终止etcd进程,模拟部分计算资源失效;通过手动关闭/重启MySQL服务器进程,模拟存储资源的可用性波动。之后多个客户端并发地向协同服务集群发起读请求,确认成功写入的变量名与变量值是否匹配或者丢失。
下面,通过如下的一个具体实例来对本发明的技术方案进行详细的说明。选用MySQL服务器作为存储节点实例,我们实现了一个Micro-benchmark测试框架用于测试集群的可用性与数据安全性。Micro-benchmark随机生成多个不重复的变量名以及对应的变量值,向etcd服务器节点运行负载并保证每个变量都只会被写入最多一次,同时收集处理速度与变量信息进行核对。
1)硬件环境:
在阿里云环境下部署3台运行MySQL的服务器,3台运行etcd的服务器。分为3个数据中心,1台运行Micro-benchmark客户端。运行etcd的服务器上同时运行监护进程,定期Kill掉etcd进程或者重新唤起etcd进程进行重启模拟计算资源的可用性波动。通过手动关闭/重启MySQL服务器进程,模拟存储资源的可用性波动。Micro-benchmark启动24个客户端,并产生所需负载,并在获得请求响应后进行记录。
2)运行过程:
对于给定的试验参数,Micro-benchmark首先会生成给定数目的拥有不同变量名的键值对,然后单轮实验分为两个阶段:首先是通过客户端将生成的键值对通过界面写入etcd服务器中,在此阶段:
1)模拟计算资源可用性对系统的影响:每隔5s随机选择一个etcd服务器终止服务,在将集群的可用etcd服务器降低到1个的时候,再每隔5s随机重启一个etcd服务器,直到恢复全部的etcd服务器。
2)模拟存储资源可用性对系统的影响:随机选择一个MySQL服务器终止服务,再过5s重启该MySQL服务器。
之后在所有的键值对写入etcd集群之后,再另外启动一组客户端读取etcd服务器中保存的数据,与Micro-benchmark中生成的数据进行比对。数据安全性的评估通过比对键值对是否匹配,仅比对成功写入etcd服务器的键值对;可用性的测量参考etcd集群的吞吐率,检测某个etcd服务器的失效/重启对吞吐率的冲击,并结合etcd服务器日志的分析。实验结果见表2。
实验参数及默认值如表1。
3)运行结果:
表1实验参数与默认值
实验参数 | 默认值 |
MySQL存储引擎 | InnoDB |
MySQL隔离级别 | REPEATABLE-READ |
变量个数 | 25000 |
客户端请求超时 | 500ms |
表2实验结果
基于计算存储分离框架下冗余存储资源的共识系统,包含:基于冗余存储资源的日志复制模块和基于冗余存储资源的Leader节点选举模块;
基于冗余存储资源的日志复制模块:当客户端向复制状态机服务器集群提交了一个请求,将日志项写入存储节点中,将整个集群的计算节点划分为两种角色:Leader节点和Follower节点;集群只有唯一的Leader节点推动日志复制过程,将新的客户端请求以日志项的形式,写入存储节点并持久化保存;
基于冗余存储资源的Leader节点选举模块:在集群初始化或者由于分布式环境下的各类故障导致集群Leader节点无法服务时,需要集群及时从其他计算节点中,选举出一个新的Leader节点,继续进行日志复制的过程,保证集群的可用性。
显然,本领域的技术人员应该明白,上述的本发明实施例的基于计算存储分离框架下冗余存储资源的共识方法各步骤或基于计算存储分离框架下冗余存储资源的共识系统各模块可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。
Claims (10)
1.一种基于计算存储分离框架下冗余存储资源的共识方法,其特征在于,包含:
1)基于冗余存储资源的日志复制过程;
2)基于冗余存储资源的Leader节点选举过程;
基于冗余存储资源的日志复制过程:当客户端向复制状态机服务器集群提交了一个请求,将日志项写入存储节点中,将整个集群的计算节点划分为两种角色:Leader节点和Follower节点;集群只有唯一的Leader节点推动日志复制过程,将新的客户端请求以日志项的形式,写入存储节点并持久化保存;
基于冗余存储资源的Leader节点选举过程:在集群初始化或者由于分布式环境下的各类故障导致集群Leader节点无法服务时,需要集群及时从其他计算节点中,选举出一个新的Leader节点,继续进行日志复制的过程,保证集群的可用性。
3.根据权利要求1所述的基于计算存储分离框架下冗余存储资源的共识方法,其特征在于,所述基于冗余存储资源的日志复制过程为:
1)Leader节点L收到来自客户端的请求,将其添加到本地的日志中,并将该日志项写入集群中的所有存储节点中,对于每一个存储节点N:
a)生成MsgApp消息AE(t,L→N,ti,e[i+1,i+k],c)写入存储节点N,其中t表示Leader节点L当前的Term值,L→N表示从节点L写入存储节点N,ti,表示节点L中第i个日志项的Term值,e[i+1,i+k]表示节点L中第i+1到i+k个日志项,c表示节点L中前c个日志项已经提交;
b)读取存储节点N来自其他计算节点的更新部分,如果更新部分中Term值的最大值tmax超过存储节点的已知的最大Term值N.t,将N.t更新为tmax,与此同时分析生成真实日志进展N.e;
c)如果更新后MsgApp消息携带的Leader节点Term值AE.t等于N.t,且MsgApp消息携带的日志项片段AE.e添加到N.e中,那么MsgApp消息就成功写入存储节点N中;
2)如果集群中超过一半的存储节点都成功写入该日志项,则该日志已提交;节点L将成功提交的结果反馈给客户端;
集群中的其他计算节点都是Follower节点,总是定期读取指定的存储节点N,因而每次需要处理的更新规模较大;通过更新的预处理,将其中能够根据日志项下标-Term对(i,ti)进行日志项拼接的MsgApp合并成一个MsgApp,减少存储节点真实日志进展N.e的生成难度;在生成N.e之后,就需要按照N.e来更新本地日志;
在整个日志复制的过程中,日志项的复制发生在Leader节点和存储节点之间,Leader节点与Follower节点之间是解耦的,通过存储节点完成更新;即使当前只有一个Leader节点在正常运行,只要正常运行的存储节点超过总数的一半,那么日志复制的过程就能够正常运行。
4.根据权利要求1所述的基于计算存储分离框架下冗余存储资源的共识方法,其特征在于,Leader节点选举要求,最终产生的新Leader节点必须是全局唯一的;在Leader节点选举的过程中,整个集群的计算节点划分为两种角色:Candidate节点和Follower节点,其中Candidate节点将选票保存到存储节点中,并确认该选票是否有效;而Follower节点并不参与投票,与日志复制过程中的行为一样,只需要关注当前集群是否有新的Leader节点通过Leader节点选举产生;Follower节点会在对应的存储节点长期没有更新的时候转化为Candidate节点,并且自增本地的Term值,开始Leader节点选举;在Leader节点选举的过程中,可能会产生多个Candidate节点,甚至多个Candidate以相同的Term值,参与Leader节点选举的过程,因此Candidate节点在读取到与自己相同或者更大的Term值的其他节点的选票的时候,应当立刻退出选举;集群中也可能会产生进度落后的Candidate节点,因此在Candidate节点确认选票的同时,也会检查本地日志进展是否落后。
6.根据权利要求5所述的基于计算存储分离框架下冗余存储资源的共识方法,其特征在于,Leader节点选举过程中,Candidate节点的流程如下:
1)Follower节点F发现存储节点长期没有更新,转变为Candidate节点C,自增本地的Term值开始Leader节点选举过程,并将选票写入集群中的所有存储节点中,对于每一个存储节点N:
a)生成MsgVote消息RV(t,C→N,ti,i)写入节点N,其中i表示Candidate节点C当前的Term值,C→N表示从节点C写入存储节点N,ti表示节点C中最后一个日志项的Term值,i表示节点C中最后一个日志项的下标;
b)读取节点N来自其他计算节点的更新部分,分析生成存储节点的已知的最大Term值N.t,以及真实日志进展N.e;如果更新部分中Term值的最大值tmax超过存储节点的已知的最大Term值N.t,将N.t更新为tmax;
c)检查MsgVote携带的Term值RV.t是否大于N.t,且C.e不落后于N.e;
2)如果集群中超过一半的存储节点的选票都满足要求,则Candidate节点C就会成功晋选成为Leader节点,并立刻广播MsgApp;否则,节点C会重新退化为Follower节点;
在整个Leader节点选举的过程中,Follower节点只需要从存储节点中获取当前的更新即可,不参与选举的过程;Follower节点中原本在Raft技术中用于保存投票结果的VoteFor值一直被赋值为空即可;Candidate节点通过存储节点进行选举,Follower节点不参与投票;只要正常运行的存储节点超过总数的一半,那么Leader节点选举的过程就能够正常运行。
7.根据权利要求3所述的基于计算存储分离框架下冗余存储资源的共识方法,其特征在于,将能够根据日志项下标-Term对(i,ti)进行日志项拼接的MsgApp合并成一个MsgApp,具体为:如果一个MsgApp消息m1中的日志项下标-Term对(i,ti)在另外一个MsgApp消息m2中能找到拥有相同下标和Term值的日志项,那么将m2中下标超过i的日志项删除,将m1中的全部日志项添加到m2日志项的尾部。通过依次将多个MsgApp合并成一个MsgApp,减少存储节点真实日志进展N.e的生成难度。
8.一种基于计算存储分离框架下冗余存储资源的共识系统,其特征在于,包含:基于冗余存储资源的日志复制模块和基于冗余存储资源的Leader节点选举模块;
基于冗余存储资源的日志复制模块:当客户端向复制状态机服务器集群提交了一个请求,将日志项写入存储节点中,将整个集群的计算节点划分为两种角色:Leader节点和Follower节点;集群只有唯一的Leader节点推动日志复制过程,将新的客户端请求以日志项的形式,写入存储节点并持久化保存;
基于冗余存储资源的Leader节点选举模块:在集群初始化或者由于分布式环境下的各类故障导致集群Leader节点无法服务时,需要集群及时从其他计算节点中,选举出一个新的Leader节点,继续进行日志复制的过程,保证集群的可用性。
9.一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如权利要求1-6任意一项所述的基于计算存储分离框架下冗余存储资源的共识方法。
10.一种计算机可读存储介质,该计算机可读存储介质存储有执行如权利要求1-6任意一项所述的基于计算存储分离框架下冗余存储资源的共识方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210219296.0A CN114448996B (zh) | 2022-03-08 | 2022-03-08 | 基于计算存储分离框架下的冗余存储资源的共识方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210219296.0A CN114448996B (zh) | 2022-03-08 | 2022-03-08 | 基于计算存储分离框架下的冗余存储资源的共识方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114448996A true CN114448996A (zh) | 2022-05-06 |
CN114448996B CN114448996B (zh) | 2022-11-11 |
Family
ID=81359272
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210219296.0A Active CN114448996B (zh) | 2022-03-08 | 2022-03-08 | 基于计算存储分离框架下的冗余存储资源的共识方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114448996B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105511987A (zh) * | 2015-12-08 | 2016-04-20 | 上海爱数信息技术股份有限公司 | 一种强一致性且高可用的分布式任务管理系统 |
CN109729129A (zh) * | 2017-10-31 | 2019-05-07 | 华为技术有限公司 | 存储集群的配置修改方法、存储集群及计算机系统 |
CN109964446A (zh) * | 2018-06-08 | 2019-07-02 | 北京大学深圳研究生院 | 一种基于投票的共识方法 |
CN110569675A (zh) * | 2019-09-18 | 2019-12-13 | 上海海事大学 | 一种基于区块链技术的多Agent交易信息保护方法 |
US20190386893A1 (en) * | 2016-12-30 | 2019-12-19 | Huawei Technologies Co., Ltd. | Fault Rectification Method, Device, and System |
CN111368002A (zh) * | 2020-03-05 | 2020-07-03 | 广东小天才科技有限公司 | 一种数据处理方法、系统、计算机设备和存储介质 |
CN113127565A (zh) * | 2021-04-28 | 2021-07-16 | 联通沃音乐文化有限公司 | 基于外部观察者组的分布式数据库节点同步的方法和装置 |
CN113158227A (zh) * | 2021-03-08 | 2021-07-23 | 重庆邮电大学 | 一种基于Fabric的数据库访问日志上链方法及系统 |
CN113810231A (zh) * | 2021-09-16 | 2021-12-17 | 杭州安恒信息技术股份有限公司 | 一种日志解析方法、系统、电子设备及存储介质 |
-
2022
- 2022-03-08 CN CN202210219296.0A patent/CN114448996B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105511987A (zh) * | 2015-12-08 | 2016-04-20 | 上海爱数信息技术股份有限公司 | 一种强一致性且高可用的分布式任务管理系统 |
US20190386893A1 (en) * | 2016-12-30 | 2019-12-19 | Huawei Technologies Co., Ltd. | Fault Rectification Method, Device, and System |
CN109729129A (zh) * | 2017-10-31 | 2019-05-07 | 华为技术有限公司 | 存储集群的配置修改方法、存储集群及计算机系统 |
US20200257593A1 (en) * | 2017-10-31 | 2020-08-13 | Huawei Technologies Co., Ltd. | Storage cluster configuration change method, storage cluster, and computer system |
CN109964446A (zh) * | 2018-06-08 | 2019-07-02 | 北京大学深圳研究生院 | 一种基于投票的共识方法 |
CN110569675A (zh) * | 2019-09-18 | 2019-12-13 | 上海海事大学 | 一种基于区块链技术的多Agent交易信息保护方法 |
CN111368002A (zh) * | 2020-03-05 | 2020-07-03 | 广东小天才科技有限公司 | 一种数据处理方法、系统、计算机设备和存储介质 |
CN113158227A (zh) * | 2021-03-08 | 2021-07-23 | 重庆邮电大学 | 一种基于Fabric的数据库访问日志上链方法及系统 |
CN113127565A (zh) * | 2021-04-28 | 2021-07-16 | 联通沃音乐文化有限公司 | 基于外部观察者组的分布式数据库节点同步的方法和装置 |
CN113810231A (zh) * | 2021-09-16 | 2021-12-17 | 杭州安恒信息技术股份有限公司 | 一种日志解析方法、系统、电子设备及存储介质 |
Non-Patent Citations (4)
Title |
---|
LI-E WANG, YAN BAI: "Beh-Raft-Chain: A Behavior-Based Fast Blockchain Protocol for Complex Networks", 《IEEE TRANSACTIONS ON NETWORK SCIENCE AND ENGINEERING》 * |
XIAOSONG GU1, WEI CAO: "Compositional Model Checking of Consensus", 《ARXIV》 * |
陈陆等: "改进的Raft一致性算法及其研究", 《江苏科技大学学报(自然科学版)》 * |
黄宇: "支持乱序执行的Raft协议", 《软件学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN114448996B (zh) | 2022-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11281644B2 (en) | Blockchain logging of data from multiple systems | |
CN107391628B (zh) | 数据同步方法及装置 | |
US20170161160A1 (en) | Locality based quorums | |
US9690679B2 (en) | Transaction commitment and replication in a storage system | |
Patterson et al. | Serializability, not serial: Concurrency control and availability in multi-datacenter datastores | |
US7801846B2 (en) | Generating log sequence identifiers to apply a transaction to a storage system | |
CN113111129B (zh) | 数据同步方法、装置、设备及存储介质 | |
CN111190753B (zh) | 分布式任务处理方法、装置、存储介质和计算机设备 | |
CN113590574B (zh) | 一种分布式图数据库数据处理方法、介质和电子设备 | |
CN116701043B (zh) | 面向异构计算系统的故障节点切换方法、装置和设备 | |
CN111930850A (zh) | 数据校验方法、装置、计算机设备和存储介质 | |
CN113553313A (zh) | 一种数据迁移方法及系统、存储介质、电子设备 | |
CN111400267A (zh) | 记录日志的方法和装置 | |
CN113051102B (zh) | 文件备份方法、装置、系统、存储介质和计算机设备 | |
CN113672350A (zh) | 一种应用处理方法、装置及相关设备 | |
CN115292414A (zh) | 一种业务数据同步到数仓的方法 | |
CN109726211B (zh) | 一种分布式时序数据库 | |
CN114448996B (zh) | 基于计算存储分离框架下的冗余存储资源的共识方法和系统 | |
US10728326B2 (en) | Method and system for high availability topology for master-slave data systems with low write traffic | |
CN111475480A (zh) | 一种日志处理方法及系统 | |
CN112054926B (zh) | 集群管理方法、装置、电子设备及存储介质 | |
CN110489208B (zh) | 虚拟机配置参数核查方法、系统、计算机设备和存储介质 | |
CN115202925A (zh) | 基于rdma的支持细粒度容错的共识方法及系统 | |
CN111966650A (zh) | 一种运维大数据共享数据表的处理方法、装置及存储介质 | |
CN111752911A (zh) | 一种基于Flume的数据传输方法、系统、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |