CN105550229B - 分布式存储系统数据修复的方法和装置 - Google Patents

分布式存储系统数据修复的方法和装置 Download PDF

Info

Publication number
CN105550229B
CN105550229B CN201510890665.9A CN201510890665A CN105550229B CN 105550229 B CN105550229 B CN 105550229B CN 201510890665 A CN201510890665 A CN 201510890665A CN 105550229 B CN105550229 B CN 105550229B
Authority
CN
China
Prior art keywords
copy
target fragment
data
node
fragment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510890665.9A
Other languages
English (en)
Other versions
CN105550229A (zh
Inventor
宋昭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510890665.9A priority Critical patent/CN105550229B/zh
Publication of CN105550229A publication Critical patent/CN105550229A/zh
Application granted granted Critical
Publication of CN105550229B publication Critical patent/CN105550229B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Abstract

本发明提供了一种分布式存储系统数据修复的方法和装置。该方法包括:监测目标分片的副本所在节点是否出现故障,其中,所述目标分片具有用于接收并响应数据请求的主副本和用于同步该主副本的数据操作的从副本,所述主副本和所述从副本位于分布式存储系统的不同节点;若监测到所述目标分片的副本所在节点出现故障,重新启动与所述目标分片的副本对应的进程;以及修复所述故障节点上所述目标分片的副本的数据。本发明实施例提供的技术方案能够实现对故障节点上目标分片的副本的数据的及时、快速修复的目的,从而提高分布式存储系统对外提供业务服务的性能。

Description

分布式存储系统数据修复的方法和装置
技术领域
本发明涉及计算机技术领域,特别是一种分布式存储系统数据修复的方法和装置。
背景技术
分布式存储系统,一般采用多副本的分布存储策略,通过多副本冗余存储来保证数据的可靠性。例如,可以采用3副本存储,利用hash(哈希)算法确定节点后,将数据的一个副本存储在该节点(或机器)上,而将另外2份副本存储在其他节点上。当某个节点出现故障时,仍然保证另外两个副本可以访问,并在合适的条件下完成故障副本的修复。
为了提高分布式存储系统中各个节点对外提供业务服务的性能,可以对各个节点进行数据分片,各个数据分片具有接收并响应数据请求的主副本以及同步该主副本的数据操作的从副本,且主副本与其对应的一个或多个从副本位于不同的节点。并且,考虑到分布式存储系统的负载均衡,应尽可能保证各个节点上面的主副本是一样多的。
当分布式存储系统中的节点出现故障时,如何对故障节点上数据分片的主副本或从副本的数据进行及时修复成为亟待解决的技术问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的分布式存储系统数据修复的方法和相应的装置。
依据本发明的一方面,提供了一种分布式存储系统数据修复的方法,包括:
监测目标分片的副本所在节点是否出现故障,其中,所述目标分片具有用于接收并响应数据请求的主副本和用于同步该主副本的数据操作的从副本,所述主副本和所述从副本位于分布式存储系统的不同节点;
若监测到所述目标分片的副本所在节点出现故障,重新启动与所述目标分片的副本对应的进程;以及
修复所述故障节点上所述目标分片的副本的数据。
可选地,所述监测目标分片的副本所在节点是否出现故障的步骤包括:
监测目标分片的副本的在线数量;以及
当监测到所述目标分片的副本的在线数量与预设数量不一致时,确定所述目标分片的副本所在节点出现故障。
可选地,所述监测目标分片的副本的在线数量的步骤包括:
获取所述分布式存储系统的meta信息,其中,所述meta信息中记录了所述分布式存储系统中各分片的副本的在线状态;
在所述meta信息中查找所述目标分片的副本的在线状态;以及
根据所述目标分片的副本的在线状态,确定所述目标分片的副本的在线数量。
可选地,若所述meta信息存储在所述分布式存储系统的一个或多个节点,当所述一个或多个节点中的任意一个节点上的分片的副本的在线状态发生变化时,对应修改该任意一个节点的meta信息,并广播给所述一个或多个节点中的其它节点,同步修改该其它节点上的meta信息;
所述获取所述分布式存储系统的meta信息的步骤包括:
从所述一个或多个节点处获取所述meta信息。
可选地,所述meta信息中还记录了所述分布式存储系统中各分片的副本存储在哪个节点;
在确定所述目标分片的副本所在节点出现故障之后,所述方法还包括通过以下步骤确定所述故障节点:
在所述meta信息中查找所述目标分片的副本所在节点;以及
根据所述目标分片的副本所在节点以及副本的在线状态,确定所述故障节点。
可选地,若确定所述目标分片的原主副本所在节点为所述故障节点,则修复所述故障节点上所述目标分片的副本的数据的步骤包括:
在所述目标分片的当前主副本与所述目标分片的原主副本之间进行数据同步;或者
在所述目标分片的当前从副本与所述目标分片的原主副本之间进行数据同步。
可选地,所述在所述目标分片的当前主副本与所述目标分片的原主副本之间进行数据同步的步骤包括:
获取所述目标分片的当前主副本的第一日志记录以及所述目标分片的原主副本的第二日志记录;
比较所述第一日志记录和所述第二日志记录,判断是否能够确定出两者的数据同步点;以及
若确定出所述数据同步点,则根据所述数据同步点,在所述目标分片的当前主副本与所述目标分片的原主副本间进行数据同步。
可选地,所述根据所述数据同步点,在所述目标分片的当前主副本与所述目标分片的原主副本间进行数据同步的步骤包括:
根据所述数据同步点,确定存在于所述第一日志记录、且未存在于所述第二日志记录的第一日志记录增量,以及未存在于所述第一日志记录、且存在于所述第二日志记录的第二日志记录增量;以及
在所述目标分片的原主副本中执行所述第一日志记录增量对应的操作,以及在所述目标分片的当前主副本中执行所述第二日志记录增量对应的操作。
可选地,在比较所述第一日志记录和所述第二日志记录,判断是否能够确定出两者的数据同步点之后,所述方法还包括:
若未确定出所述数据同步点,则获取所述目标分片的当前主副本上的所有数据;以及
将所述目标分片的原主副本上的数据替换为获取的所述所有数据,以及将所述目标分片的原主副本的所述第二日志记录替换为所述第一日志记录,并在所述目标分片的原主副本中执行所述第一日志记录对应的操作。
可选地,在比较所述第一日志记录和所述第二日志记录,判断是否能够确定出两者的数据同步点之后,所述方法还包括:
若未确定出所述数据同步点,则将所述目标分片的原主副本的所述第二日志记录替换为所述第一日志记录,并在所述目标分片的原主副本中执行所述第一日志记录对应的操作。
可选地,在修复所述目标分片的原主副本的数据之后,所述方法还包括:
将所述目标分片的原主副本,以所述目标分片的当前主副本的从副本的身份加入所述分布式存储系统。
可选地,若确定所述目标分片的原从副本所在节点为所述故障节点,则修复所述故障节点上所述目标分片的副本的数据的步骤包括:
将所述目标分片的当前主副本的数据同步至所述目标分片的原从副本。
可选地,所述监测目标分片的副本的在线数量的步骤包括:
以广播的方式向所述分布式存储系统的各节点发送查找所述目标分片的副本的请求,所述请求中携带有所述目标分片的副本的标识;
接收所述各节点返回的响应信息;以及
根据所述响应信息确定所述目标分片的副本的在线数量。
可选地,当所述目标分片包括多个时,所述监测目标分片的副本的在线数量的步骤包括:
按照指定的顺序,依次对多个目标分片的副本的在线数量进行监测。
依据本发明的另一方面,还提供了一种分布式存储系统数据修复的装置,包括:
监测模块,适于监测目标分片的副本所在节点是否出现故障,其中,所述目标分片具有用于接收并响应数据请求的主副本和用于同步该主副本的数据操作的从副本,所述主副本和所述从副本位于分布式存储系统的不同节点;
进程重启模块,适于若监测到所述目标分片的副本所在节点出现故障,重新启动与所述目标分片的副本对应的进程;以及
数据修复模块,适于修复所述故障节点上所述目标分片的副本的数据。
可选地,所述监测模块还适于:
监测目标分片的副本的在线数量;以及
当监测到所述目标分片的副本的在线数量与预设数量不一致时,确定所述目标分片的副本所在节点出现故障。
可选地,所述监测模块还适于:
获取所述分布式存储系统的meta信息,其中,所述meta信息中记录了所述分布式存储系统中各分片的副本的在线状态;
在所述meta信息中查找所述目标分片的副本的在线状态;以及
根据所述目标分片的副本的在线状态,确定所述目标分片的副本的在线数量。
可选地,若所述meta信息存储在所述分布式存储系统的一个或多个节点,当所述一个或多个节点中的任意一个节点上的分片的副本的在线状态发生变化时,对应修改该任意一个节点的meta信息,并广播给所述一个或多个节点中的其它节点,同步修改该其它节点上的meta信息;
所述监测模块还适于:
从所述一个或多个节点处获取所述meta信息。
可选地,所述meta信息中还记录了所述分布式存储系统中各分片的副本存储在哪个节点;
所述装置还包括故障节点确定模块,适于:
在所述meta信息中查找所述目标分片的副本所在节点;以及
根据所述目标分片的副本所在节点以及副本的在线状态,确定所述故障节点。
可选地,若所述故障节点确定模块确定所述目标分片的原主副本所在节点为所述故障节点,所述数据修复模块还适于:
在所述目标分片的当前主副本与所述目标分片的原主副本之间进行数据同步;或者
在所述目标分片的当前从副本与所述目标分片的原主副本之间进行数据同步。
可选地,所述数据修复模块还适于:
获取所述目标分片的当前主副本的第一日志记录以及所述目标分片的原主副本的第二日志记录;
比较所述第一日志记录和所述第二日志记录,判断是否能够确定出两者的数据同步点;以及
若确定出所述数据同步点,则根据所述数据同步点,在所述目标分片的当前主副本与所述目标分片的原主副本间进行数据同步。
可选地,所述数据修复模块还适于:
根据所述数据同步点,确定存在于所述第一日志记录、且未存在于所述第二日志记录的第一日志记录增量,以及未存在于所述第一日志记录、且存在于所述第二日志记录的第二日志记录增量;以及
在所述目标分片的原主副本中执行所述第一日志记录增量对应的操作,以及在所述目标分片的当前主副本中执行所述第二日志记录增量对应的操作。
可选地,所述数据修复模块还适于:
若未确定出所述数据同步点,则获取所述目标分片的当前主副本上的所有数据;以及
将所述目标分片的原主副本上的数据替换为获取的所述所有数据,以及将所述目标分片的原主副本的所述第二日志记录替换为所述第一日志记录,并在所述目标分片的原主副本中执行所述第一日志记录对应的操作。
可选地,所述数据修复模块还适于:
若未确定出所述数据同步点,则将所述目标分片的原主副本的所述第二日志记录替换为所述第一日志记录,并在所述目标分片的原主副本中执行所述第一日志记录对应的操作。
可选地,所述装置还包括:
加入模块,适于在所述数据修复模块修复所述目标分片的原主副本的数据之后,将所述目标分片的原主副本,以所述目标分片的当前主副本的从副本的身份加入所述分布式存储系统。
可选地,若所述故障节点确定模块确定所述目标分片的原从副本所在节点为所述故障节点,所述数据修复模块还适于:
将所述目标分片的当前主副本的数据同步至所述目标分片的原从副本。
可选地,所述监测模块还适于:
以广播的方式向所述分布式存储系统的各节点发送查找所述目标分片的副本的请求,所述请求中携带有所述目标分片的副本的标识;
接收所述各节点返回的响应信息;以及
根据所述响应信息确定所述目标分片的副本的在线数量。
可选地,所述监测模块还适于:
当所述目标分片包括多个时,按照指定的顺序,依次对多个目标分片的副本的在线数量进行监测。
在本发明实施例中,目标分片具有用于接收并响应数据请求的主副本和用于同步该主副本的数据操作的从副本,并且主副本和从副本位于分布式存储系统的不同节点。本发明实施例主动监测目标分片的副本所在节点是否出现故障,当监测到目标分片的副本所在节点出现故障时,重新启动与目标分片的副本对应的进程,并修复故障节点上目标分片的副本的数据,实现对故障节点上目标分片的副本的数据的及时、快速修复的目的,从而提高分布式存储系统对外提供业务服务的性能。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的分布式存储系统数据修复的方法的流程示意图;
图2示出了根据本发明一个实施例的分布式存储系统各个节点的数据分片示意图;
图3示出了根据本发明一个实施例的利用日志记录在目标分片的当前主副本与原主副本之间进行数据同步的方法的流程示意图;
图4示出了根据本发明一个实施例的日志记录的示意图;
图5示出了根据本发明另一个实施例的日志记录的示意图;
图6示出了根据本发明一个实施例的利用日志记录在目标分片的当前主副本与原从副本之间进行数据同步的方法的流程示意图;
图7示出了根据本发明又一个实施例的日志记录的示意图;
图8示出了根据本发明一个实施例的分布式存储系统数据修复的装置的结构示意图;以及
图9示出了根据本发明另一个实施例的分布式存储系统数据修复的装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为解决上述技术问题,本发明实施例提供了一种分布式存储系统数据修复的方法。图1示出了根据本发明一个实施例的分布式存储系统数据修复的方法的流程示意图。如图1所示,该方法至少包括步骤S102、步骤S104以及步骤S106:
步骤S102,监测目标分片的副本所在节点是否出现故障,其中,目标分片具有用于接收并响应数据请求的主副本和用于同步该主副本的数据操作的从副本,主副本和从副本位于分布式存储系统的不同节点;
步骤S104,若监测到目标分片的副本所在节点出现故障,重新启动与目标分片的副本对应的进程;以及
步骤S106,修复故障节点上目标分片的副本的数据。
在本发明实施例中,目标分片具有用于接收并响应数据请求的主副本和用于同步该主副本的数据操作的从副本,并且主副本和从副本位于分布式存储系统的不同节点。本发明实施例主动监测目标分片的副本所在节点是否出现故障,当监测到目标分片的副本所在节点出现故障时,重新启动与目标分片的副本对应的进程,并修复故障节点上目标分片的副本的数据,实现对故障节点上目标分片的副本的数据的及时、快速修复的目的,从而提高分布式存储系统对外提供业务服务的性能。
本发明实施例提及的分布式存储系统可以如图2所示,该分布式存储系统中包括A节点、B节点、C节点等,各个节点包括多个数据分片,各个数据分片具有接收并响应数据请求的主副本以及同步该主副本的数据操作的从副本,且主副本与其对应的一个或多个从副本位于不同的节点。例如,在图2中,分片1的主副本位于A节点,分片1的从副本位于B节点和C节点。
在上文步骤S102中监测目标分片的副本所在节点是否出现故障,本发明实施例提供了一种可选的方案,在该方案中,可以监测目标分片的副本的在线数量,当监测到目标分片的副本的在线数量与预设数量不一致时,确定目标分片的副本所在节点出现故障。例如,目标分片的预设数量为3,包括1个主副本和2个从副本,若监测到目标分片的副本的在线数量与预设数量不一致时,则确定目标分片的副本所在节点出现故障,这里,出现故障的节点可能是主副本所在节点,也可能是从副本所在节点。需要说明的是,本发明实施例列举的预设数量仅是示意性的,并不限制本发明。
基于分布式存储系统多节点多数据分片的特点,在本发明实施例中,目标分片的数量可以包括多个,在实施时,可以按照指定的顺序,依次对多个目标分片的副本的在线数量进行监测。
进一步,在本发明实施例中,监测目标分片的副本的在线数量,可以通过查找meta信息(这里,meta信息中记录了分布式存储系统中各分片的副本的在线状态)或者广播的方式进行,下面分别进行详细介绍。
方式一,通过查找meta信息的方式。即,获取分布式存储系统的meta信息,在meta信息中查找目标分片的副本的在线状态,随后根据目标分片的副本的在线状态,确定目标分片的副本的在线数量。
在本发明一实施例中,meta信息可以存储在分布式存储系统的一个或多个节点,当一个或多个节点中的任意一个节点上的分片的副本的在线状态发生变化时,对应修改该任意一个节点的meta信息,并广播给一个或多个节点中的其它节点,同步修改该其它节点上的meta信息。这样,在获取分布式存储系统的meta信息时,可以从该一个或多个节点处获取meta信息。
另外,meta信息中还记录有分布式存储系统中各分片的副本存储在哪个节点,例如,meta信息中记录有分片1的主副本位于A节点,分片1的从副本分别位于B节点和C节点;分片2的主副本位于B节点,分片2的从副本分别位于A节点和C节点;分片3的主副本位于C节点,分片3的从副本分别位于A节点和B节点,等等。
在通过查找meta信息,监测到目标分片的副本的在线数量与预设数量不一致,并确定目标分片的副本所在节点出现故障时,可以进一步根据meta信息中记录的分布式存储系统中各分片的副本存储在哪个节点的信息,确定故障节点,即,可以在meta信息中查找目标分片的副本所在节点,进而根据目标分片的副本所在节点以及副本的在线状态,确定故障节点。
方式二,通过广播的方式。即,以广播的方式向分布式存储系统的各节点发送查找目标分片的副本的请求,该请求中携带有目标分片的副本的标识,随后接收各节点返回的响应信息,进而根据响应信息确定目标分片的副本的在线数量。在本发明实施例中,可以对目标分片的副本的在线数量赋初始值0,若某个节点返回的响应信息是表示存在目标分片的副本的信息,则对该初始值加1,以此类推。
在通过广播的方式,监测到目标分片的副本的在线数量与预设数量不一致,并确定目标分片的副本所在节点出现故障时,可以进一步根据meta信息中记录的分布式存储系统中各分片的副本存储在哪个节点的信息,确定故障节点,即,可以在meta信息中查找目标分片的副本所在节点,进而根据目标分片的副本所在节点以及副本的在线状态,确定故障节点。
在步骤S104中,若监测到目标分片的副本所在节点出现故障,则在故障节点恢复时,可以在恢复的节点上重新启动与目标分片的副本对应的进程。随后,在步骤S106中修复故障节点上目标分片的副本的数据,这里,故障节点可能是目标分片的原主副本所在节点,也可能是目标分片的原从副本所在节点,下面针对这两种情况分别进行介绍。
情况一,若确定出目标分片的原主副本所在节点为故障节点,则在进行数据修复时,因为存活的副本肯定是严格一致的,所以可以利用当前存活的任意一个副本来修复。例如,可以在目标分片的当前主副本与目标分片的原主副本之间进行数据同步,也可以在目标分片的当前从副本与目标分片的原主副本之间进行数据同步。另外,为了尽可能实现负载均衡,若目标分片的当前主副本负载过高,则可以优选利用目标分片的当前从副本进行数据恢复。
进一步,目标分片的当前主副本和目标分片的原主副本都存在日志记录(binlog),日志记录中记录有对业务数据进行读写操作的日志信息(例如,带有时间戳的key-value对,等等),因而本发明实施例可以利用日志记录,在目标分片的当前主副本与目标分片的原主副本之间进行数据同步。
图3示出了根据本发明一个实施例的利用日志记录在目标分片的当前主副本与原主副本之间进行数据同步的方法的流程示意图。如图3所示,该方法至少包括步骤S302、步骤S304以及步骤S306。
步骤S302,获取目标分片的当前主副本的第一日志记录以及目标分片的原主副本的第二日志记录。
步骤S304,比较第一日志记录和第二日志记录,判断是否能够确定出两者的数据同步点,若是,则继续执行步骤S306。
步骤S306,根据数据同步点,在目标分片的当前主副本与目标分片的原主副本间进行数据同步。
在前文介绍,目标分片的主副本用于接收并响应数据请求,从副本用于同步该主副本的数据操作。通常,主副本通过异步方式向从副本同步数据操作,例如,当一条写请求在对应的主副本写成功后,会立刻返回给客户端成功,然后主副本通过异步的方式将新的数据同步到对应的从副本,这样的方式减少了客户端多个节点写成功等待的时间。然而,在某些情况下会造成写丢失,如当主副本接受一条写请求,写入并返回给客户端成功后不幸宕掉,此时刚才的写还未同步给其对应的从副本,而从副本在发现主副本挂掉并重新选主后,新的主副本则永久丢失了之前老的主副本向用户确认的写。
为解决这一问题,本发明实施例提供了一种可选地实施步骤S306的方案,在该方案中,可以根据数据同步点,确定存在于第一日志记录、且未存在于第二日志记录的第一日志记录增量,以及未存在于第一日志记录、且存在于第二日志记录的第二日志记录增量,如图4所示。随后,在目标分片的原主副本中执行第一日志记录增量对应的操作,以及在目标分片的当前主副本中执行第二日志记录增量对应的操作,从而实现目标分片的当前主副本与目标分片的原主副本间的数据同步。
进一步,若目标分片的原主副本所在节点故障时间较长,而日志记录又有存储限制,在目标分片的原主副本所在节点故障的这段时间内,目标分片的当前主副本的第一日志记录已经进行了刷新,使得在比较第一日志记录和第二日志记录后,未能够确定出两者的数据同步点,如图5所示。此时,本发明实施例可以根据业务特性进行相应的数据修复,下面举例进行详细介绍。
如果业务要求副本强一致,则需要将当前主副本的数据和binlog一起拷贝到刚恢复的原主副本上。即,可以获取目标分片的当前主副本上的所有数据,随后将目标分片的原主副本上的数据替换为获取的所有数据,以及将目标分片的原主副本的第二日志记录替换为第一日志记录,并在目标分片的原主副本中执行第一日志记录对应的操作。
如果业务的数据是每天灌固定的一批key,不同的value,则可以只拷贝binlog以达到尽快恢复副本的状态,至于副本间可能的不一致,当业务重新灌一次数据之后可以刷新。即,可以将目标分片的原主副本的第二日志记录替换为第一日志记录,并在目标分片的原主副本中执行第一日志记录对应的操作,以达到尽快恢复副本的状态。
进一步,在本发明实施例中,在修复目标分片的原主副本的数据之后,可以将目标分片的原主副本,以目标分片的当前主副本的从副本的身份加入分布式存储系统。
此外,由于目标分片的当前主副本与当前从副本是严格一致的,在目标分片的当前从副本与目标分片的原主副本之间进行数据同步时,可以参照在目标分片的当前主副本与目标分片的原主副本之间进行数据同步的方案,即可以利用日志记录,在目标分片的当前从副本与目标分片的原主副本之间进行数据同步,可以参照上文图3所示的方案,此处不再赘述。
情况二,若确定目标分片的原从副本所在节点为故障节点,则在进行数据修复时,可以将目标分片的当前主副本的数据同步至目标分片的原从副本。另外,为了尽可能实现负载均衡,若目标分片的当前主副本负载过高,则可以优选利用目标分片的当前从副本进行数据恢复。在实施时,可以利用日志记录,在目标分片的当前主副本与目标分片的原从副本之间进行数据同步。
图6示出了根据本发明一个实施例的利用日志记录在目标分片的当前主副本与原从副本之间进行数据同步的方法的流程示意图。如图6所示,该方法至少包括步骤S602、步骤S604以及步骤S606。
步骤S602,获取目标分片的当前主副本的第一日志记录以及目标分片的原从副本的第三日志记录。
步骤S604,比较第一日志记录和第三日志记录,确定出两者的数据同步点。
步骤S606,根据数据同步点,在目标分片的当前主副本与目标分片的原从副本间进行数据同步。
在该步骤中,可以根据数据同步点,确定存在于第一日志记录、且未存在于第三日志记录的日志记录增量,如图7所示。随后,在目标分片的原从副本中执行该日志记录增量对应的操作,从而实现目标分片的当前主副本与目标分片的原从副本间的数据同步。
基于上文各个实施例提供的分布式存储系统数据修复的方法,基于同一发明构思,本发明实施例还提供了一种分布式存储系统数据修复的装置。
图8示出了根据本发明一个实施例的分布式存储系统数据修复的装置的结构示意图。如图8所示,该装置800至少可以包括监测模块810、进程重启模块820以及数据修复模块830。
现介绍本发明实施例的分布式存储系统数据修复的装置800的各组成或器件的功能以及各部分间的连接关系:
监测模块810,适于监测目标分片的副本所在节点是否出现故障,其中,目标分片具有用于接收并响应数据请求的主副本和用于同步该主副本的数据操作的从副本,主副本和从副本位于分布式存储系统的不同节点;
进程重启模块820,与监测模块810相耦接,适于若监测到目标分片的副本所在节点出现故障,重新启动与目标分片的副本对应的进程;以及
数据修复模块830,与进程重启模块820相耦接,适于修复故障节点上目标分片的副本的数据。
在本发明一实施例中,监测模块810还适于:
监测目标分片的副本的在线数量;以及
当监测到目标分片的副本的在线数量与预设数量不一致时,确定目标分片的副本所在节点出现故障。
在本发明一实施例中,监测模块810还适于:
获取分布式存储系统的meta信息,其中,meta信息中记录了分布式存储系统中各分片的副本的在线状态;
在meta信息中查找目标分片的副本的在线状态;以及
根据目标分片的副本的在线状态,确定目标分片的副本的在线数量。
在本发明一实施例中,若meta信息存储在分布式存储系统的一个或多个节点,当一个或多个节点中的任意一个节点上的分片的副本的在线状态发生变化时,对应修改该任意一个节点的meta信息,并广播给一个或多个节点中的其它节点,同步修改该其它节点上的meta信息;
监测模块810还适于:
从一个或多个节点处获取meta信息。
在本发明一实施例中,meta信息中还记录了分布式存储系统中各分片的副本存储在哪个节点,如图9所示,图8展示的装置还可以包括故障节点确定模块840,与进程重启模块820以及数据修复模块830相耦接,适于:
在meta信息中查找目标分片的副本所在节点;以及
根据目标分片的副本所在节点以及副本的在线状态,确定故障节点。
在本发明一实施例中,若故障节点确定模块840确定目标分片的原主副本所在节点为故障节点,数据修复模块830还适于:
在目标分片的当前主副本与目标分片的原主副本之间进行数据同步;或者
在目标分片的当前从副本与目标分片的原主副本之间进行数据同步。
在本发明一实施例中,数据修复模块830还适于:
获取目标分片的当前主副本的第一日志记录以及目标分片的原主副本的第二日志记录;
比较第一日志记录和第二日志记录,判断是否能够确定出两者的数据同步点;以及
若确定出数据同步点,则根据数据同步点,在目标分片的当前主副本与目标分片的原主副本间进行数据同步。
在本发明一实施例中,数据修复模块830还适于:
根据数据同步点,确定存在于第一日志记录、且未存在于第二日志记录的第一日志记录增量,以及未存在于第一日志记录、且存在于第二日志记录的第二日志记录增量;以及
在目标分片的原主副本中执行第一日志记录增量对应的操作,以及在目标分片的当前主副本中执行第二日志记录增量对应的操作。
在本发明一实施例中,数据修复模块830还适于:
若未确定出数据同步点,则获取目标分片的当前主副本上的所有数据;以及
将目标分片的原主副本上的数据替换为获取的所有数据,以及将目标分片的原主副本的第二日志记录替换为第一日志记录,并在目标分片的原主副本中执行第一日志记录对应的操作。
在本发明一实施例中,数据修复模块830还适于:
若未确定出数据同步点,则将目标分片的原主副本的第二日志记录替换为第一日志记录,并在目标分片的原主副本中执行第一日志记录对应的操作。
在本发明一实施例中,如图9所示,图8展示的装置还可以包括加入模块850,与数据修复模块830相耦合,适于在数据修复模块830修复目标分片的原主副本的数据之后,将目标分片的原主副本,以目标分片的当前主副本的从副本的身份加入分布式存储系统。
在本发明一实施例中,若故障节点确定模块840确定目标分片的原从副本所在节点为故障节点,数据修复模块830还适于:
将目标分片的当前主副本的数据同步至目标分片的原从副本。
在本发明一实施例中,监测模块810还适于:
以广播的方式向分布式存储系统的各节点发送查找目标分片的副本的请求,请求中携带有目标分片的副本的标识;
接收各节点返回的响应信息;以及
根据响应信息确定目标分片的副本的在线数量。
在本发明一实施例中,监测模块810还适于:
当目标分片包括多个时,按照指定的顺序,依次对多个目标分片的副本的在线数量进行监测。
根据上述任意一个优选实施例或多个优选实施例的组合,本发明实施例能够达到如下有益效果:
在本发明实施例中,目标分片具有用于接收并响应数据请求的主副本和用于同步该主副本的数据操作的从副本,并且主副本和从副本位于分布式存储系统的不同节点。本发明实施例主动监测目标分片的副本所在节点是否出现故障,当监测到目标分片的副本所在节点出现故障时,重新启动与目标分片的副本对应的进程,并修复故障节点上目标分片的副本的数据,实现对故障节点上目标分片的副本的数据的及时、快速修复的目的,从而提高分布式存储系统对外提供业务服务的性能。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的分布式存储系统数据修复的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。
本发明实施例还公开了:A1、一种分布式存储系统数据修复的方法,包括:
监测目标分片的副本所在节点是否出现故障,其中,所述目标分片具有用于接收并响应数据请求的主副本和用于同步该主副本的数据操作的从副本,所述主副本和所述从副本位于分布式存储系统的不同节点;
若监测到所述目标分片的副本所在节点出现故障,重新启动与所述目标分片的副本对应的进程;以及
修复所述故障节点上所述目标分片的副本的数据。
A2、根据A1所述的方法,其中,所述监测目标分片的副本所在节点是否出现故障的步骤包括:
监测目标分片的副本的在线数量;以及
当监测到所述目标分片的副本的在线数量与预设数量不一致时,确定所述目标分片的副本所在节点出现故障。
A3、根据A2所述的方法,其中,所述监测目标分片的副本的在线数量的步骤包括:
获取所述分布式存储系统的meta信息,其中,所述meta信息中记录了所述分布式存储系统中各分片的副本的在线状态;
在所述meta信息中查找所述目标分片的副本的在线状态;以及
根据所述目标分片的副本的在线状态,确定所述目标分片的副本的在线数量。
A4、根据A3所述的方法,其中,
若所述meta信息存储在所述分布式存储系统的一个或多个节点,当所述一个或多个节点中的任意一个节点上的分片的副本的在线状态发生变化时,对应修改该任意一个节点的meta信息,并广播给所述一个或多个节点中的其它节点,同步修改该其它节点上的meta信息;
所述获取所述分布式存储系统的meta信息的步骤包括:
从所述一个或多个节点处获取所述meta信息。
A5、根据A3或A4所述的方法,其中,
所述meta信息中还记录了所述分布式存储系统中各分片的副本存储在哪个节点;
在确定所述目标分片的副本所在节点出现故障之后,所述方法还包括通过以下步骤确定所述故障节点:
在所述meta信息中查找所述目标分片的副本所在节点;以及
根据所述目标分片的副本所在节点以及副本的在线状态,确定所述故障节点。
A6、根据A1-A5任一项所述的方法,其中,若确定所述目标分片的原主副本所在节点为所述故障节点,则修复所述故障节点上所述目标分片的副本的数据的步骤包括:
在所述目标分片的当前主副本与所述目标分片的原主副本之间进行数据同步;或者
在所述目标分片的当前从副本与所述目标分片的原主副本之间进行数据同步。
A7、根据A6所述的方法,其中,所述在所述目标分片的当前主副本与所述目标分片的原主副本之间进行数据同步的步骤包括:
获取所述目标分片的当前主副本的第一日志记录以及所述目标分片的原主副本的第二日志记录;
比较所述第一日志记录和所述第二日志记录,判断是否能够确定出两者的数据同步点;以及
若确定出所述数据同步点,则根据所述数据同步点,在所述目标分片的当前主副本与所述目标分片的原主副本间进行数据同步。
A8、根据A7所述的方法,其中,所述根据所述数据同步点,在所述目标分片的当前主副本与所述目标分片的原主副本间进行数据同步的步骤包括:
根据所述数据同步点,确定存在于所述第一日志记录、且未存在于所述第二日志记录的第一日志记录增量,以及未存在于所述第一日志记录、且存在于所述第二日志记录的第二日志记录增量;以及
在所述目标分片的原主副本中执行所述第一日志记录增量对应的操作,以及在所述目标分片的当前主副本中执行所述第二日志记录增量对应的操作。
A9、根据A7所述的方法,其中,在比较所述第一日志记录和所述第二日志记录,判断是否能够确定出两者的数据同步点之后,所述方法还包括:
若未确定出所述数据同步点,则获取所述目标分片的当前主副本上的所有数据;以及
将所述目标分片的原主副本上的数据替换为获取的所述所有数据,以及将所述目标分片的原主副本的所述第二日志记录替换为所述第一日志记录,并在所述目标分片的原主副本中执行所述第一日志记录对应的操作。
A10、根据A7所述的方法,其中,在比较所述第一日志记录和所述第二日志记录,判断是否能够确定出两者的数据同步点之后,所述方法还包括:
若未确定出所述数据同步点,则将所述目标分片的原主副本的所述第二日志记录替换为所述第一日志记录,并在所述目标分片的原主副本中执行所述第一日志记录对应的操作。
A11、根据A6-A10任一项所述的方法,其中,在修复所述目标分片的原主副本的数据之后,所述方法还包括:
将所述目标分片的原主副本,以所述目标分片的当前主副本的从副本的身份加入所述分布式存储系统。
A12、根据A1-A5任一项所述的方法,其中,若确定所述目标分片的原从副本所在节点为所述故障节点,则修复所述故障节点上所述目标分片的副本的数据的步骤包括:
将所述目标分片的当前主副本的数据同步至所述目标分片的原从副本。
A13、根据A1或A2所述的方法,其中,所述监测目标分片的副本的在线数量的步骤包括:
以广播的方式向所述分布式存储系统的各节点发送查找所述目标分片的副本的请求,所述请求中携带有所述目标分片的副本的标识;
接收所述各节点返回的响应信息;以及
根据所述响应信息确定所述目标分片的副本的在线数量。
A14、根据A2-A13任一项所述的方法,其中,当所述目标分片包括多个时,所述监测目标分片的副本的在线数量的步骤包括:
按照指定的顺序,依次对多个目标分片的副本的在线数量进行监测。
B15、一种分布式存储系统数据修复的装置,包括:
监测模块,适于监测目标分片的副本所在节点是否出现故障,其中,所述目标分片具有用于接收并响应数据请求的主副本和用于同步该主副本的数据操作的从副本,所述主副本和所述从副本位于分布式存储系统的不同节点;
进程重启模块,适于若监测到所述目标分片的副本所在节点出现故障,重新启动与所述目标分片的副本对应的进程;以及
数据修复模块,适于修复所述故障节点上所述目标分片的副本的数据。
B16、根据B15所述的装置,其中,所述监测模块还适于:
监测目标分片的副本的在线数量;以及
当监测到所述目标分片的副本的在线数量与预设数量不一致时,确定所述目标分片的副本所在节点出现故障。
B17、根据B16所述的装置,其中,所述监测模块还适于:
获取所述分布式存储系统的meta信息,其中,所述meta信息中记录了所述分布式存储系统中各分片的副本的在线状态;
在所述meta信息中查找所述目标分片的副本的在线状态;以及
根据所述目标分片的副本的在线状态,确定所述目标分片的副本的在线数量。
B18、根据B17所述的装置,其中,
若所述meta信息存储在所述分布式存储系统的一个或多个节点,当所述一个或多个节点中的任意一个节点上的分片的副本的在线状态发生变化时,对应修改该任意一个节点的meta信息,并广播给所述一个或多个节点中的其它节点,同步修改该其它节点上的meta信息;
所述监测模块还适于:
从所述一个或多个节点处获取所述meta信息。
B19、根据B17或B18所述的装置,其中,
所述meta信息中还记录了所述分布式存储系统中各分片的副本存储在哪个节点;
所述装置还包括故障节点确定模块,适于:
在所述meta信息中查找所述目标分片的副本所在节点;以及
根据所述目标分片的副本所在节点以及副本的在线状态,确定所述故障节点。
B20、根据B15-B19任一项所述的装置,其中,若所述故障节点确定模块确定所述目标分片的原主副本所在节点为所述故障节点,所述数据修复模块还适于:
在所述目标分片的当前主副本与所述目标分片的原主副本之间进行数据同步;或者
在所述目标分片的当前从副本与所述目标分片的原主副本之间进行数据同步。
B21、根据B20所述的装置,其中,所述数据修复模块还适于:
获取所述目标分片的当前主副本的第一日志记录以及所述目标分片的原主副本的第二日志记录;
比较所述第一日志记录和所述第二日志记录,判断是否能够确定出两者的数据同步点;以及
若确定出所述数据同步点,则根据所述数据同步点,在所述目标分片的当前主副本与所述目标分片的原主副本间进行数据同步。
B22、根据B21所述的装置,其中,所述数据修复模块还适于:
根据所述数据同步点,确定存在于所述第一日志记录、且未存在于所述第二日志记录的第一日志记录增量,以及未存在于所述第一日志记录、且存在于所述第二日志记录的第二日志记录增量;以及
在所述目标分片的原主副本中执行所述第一日志记录增量对应的操作,以及在所述目标分片的当前主副本中执行所述第二日志记录增量对应的操作。
B23、根据B21所述的装置,其中,所述数据修复模块还适于:
若未确定出所述数据同步点,则获取所述目标分片的当前主副本上的所有数据;以及
将所述目标分片的原主副本上的数据替换为获取的所述所有数据,以及将所述目标分片的原主副本的所述第二日志记录替换为所述第一日志记录,并在所述目标分片的原主副本中执行所述第一日志记录对应的操作。
B24、根据B21所述的装置,其中,所述数据修复模块还适于:
若未确定出所述数据同步点,则将所述目标分片的原主副本的所述第二日志记录替换为所述第一日志记录,并在所述目标分片的原主副本中执行所述第一日志记录对应的操作。
B25、根据B20-B24任一项所述的装置,其中,还包括:
加入模块,适于在所述数据修复模块修复所述目标分片的原主副本的数据之后,将所述目标分片的原主副本,以所述目标分片的当前主副本的从副本的身份加入所述分布式存储系统。
B26、根据B15-B19任一项所述的装置,其中,若所述故障节点确定模块确定所述目标分片的原从副本所在节点为所述故障节点,所述数据修复模块还适于:
将所述目标分片的当前主副本的数据同步至所述目标分片的原从副本。
B27、根据B15或B16所述的装置,其中,所述监测模块还适于:
以广播的方式向所述分布式存储系统的各节点发送查找所述目标分片的副本的请求,所述请求中携带有所述目标分片的副本的标识;
接收所述各节点返回的响应信息;以及
根据所述响应信息确定所述目标分片的副本的在线数量。
B28、根据B16-B27任一项所述的装置,其中,所述监测模块还适于:
当所述目标分片包括多个时,按照指定的顺序,依次对多个目标分片的副本的在线数量进行监测。

Claims (24)

1.一种分布式存储系统数据修复的方法,包括:
监测目标分片的副本所在节点是否出现故障,其中,所述目标分片具有用于接收并响应数据请求的主副本和用于同步该主副本的数据操作的从副本,所述主副本和所述从副本位于分布式存储系统的不同节点;
若监测到所述目标分片的副本所在节点出现故障,重新启动与所述目标分片的副本对应的进程;以及
修复故障节点上所述目标分片的副本的数据;
其中,若确定所述目标分片的原主副本所在节点为所述故障节点,则修复所述故障节点上所述目标分片的副本的数据的步骤包括:在所述目标分片的当前主副本与所述目标分片的原主副本之间进行数据同步;或者在所述目标分片的当前从副本与所述目标分片的原主副本之间进行数据同步;
若确定所述目标分片的原从副本所在节点为所述故障节点,则修复所述故障节点上所述目标分片的副本的数据的步骤包括:将所述目标分片的当前主副本的数据同步至所述目标分片的原从副本。
2.根据权利要求1所述的方法,其中,所述监测目标分片的副本所在节点是否出现故障的步骤包括:
监测目标分片的副本的在线数量;以及
当监测到所述目标分片的副本的在线数量与预设数量不一致时,确定所述目标分片的副本所在节点出现故障。
3.根据权利要求2所述的方法,其中,所述监测目标分片的副本的在线数量的步骤包括:
获取所述分布式存储系统的meta信息,其中,所述meta信息中记录了所述分布式存储系统中各分片的副本的在线状态;
在所述meta信息中查找所述目标分片的副本的在线状态;以及
根据所述目标分片的副本的在线状态,确定所述目标分片的副本的在线数量。
4.根据权利要求3所述的方法,其中,
若所述meta信息存储在所述分布式存储系统的一个或多个节点,当所述一个或多个节点中的任意一个节点上的分片的副本的在线状态发生变化时,对应修改该任意一个节点的meta信息,并广播给所述一个或多个节点中的其它节点,同步修改该其它节点上的meta信息;
所述获取所述分布式存储系统的meta信息的步骤包括:
从所述一个或多个节点处获取所述meta信息。
5.根据权利要求3或4所述的方法,其中,
所述meta信息中还记录了所述分布式存储系统中各分片的副本存储在哪个节点;
在确定所述目标分片的副本所在节点出现故障之后,所述方法还包括通过以下步骤确定所述故障节点:
在所述meta信息中查找所述目标分片的副本所在节点;以及
根据所述目标分片的副本所在节点以及副本的在线状态,确定所述故障节点。
6.根据权利要求1所述的方法,其中,所述在所述目标分片的当前主副本与所述目标分片的原主副本之间进行数据同步的步骤包括:
获取所述目标分片的当前主副本的第一日志记录以及所述目标分片的原主副本的第二日志记录;
比较所述第一日志记录和所述第二日志记录,判断是否能够确定出两者的数据同步点;以及
若确定出所述数据同步点,则根据所述数据同步点,在所述目标分片的当前主副本与所述目标分片的原主副本间进行数据同步。
7.根据权利要求6所述的方法,其中,所述根据所述数据同步点,在所述目标分片的当前主副本与所述目标分片的原主副本间进行数据同步的步骤包括:
根据所述数据同步点,确定存在于所述第一日志记录、且未存在于所述第二日志记录的第一日志记录增量,以及未存在于所述第一日志记录、且存在于所述第二日志记录的第二日志记录增量;以及
在所述目标分片的原主副本中执行所述第一日志记录增量对应的操作,以及在所述目标分片的当前主副本中执行所述第二日志记录增量对应的操作。
8.根据权利要求6所述的方法,其中,在比较所述第一日志记录和所述第二日志记录,判断是否能够确定出两者的数据同步点之后,所述方法还包括:
若未确定出所述数据同步点,则获取所述目标分片的当前主副本上的所有数据;以及
将所述目标分片的原主副本上的数据替换为获取的所述所有数据,以及将所述目标分片的原主副本的所述第二日志记录替换为所述第一日志记录,并在所述目标分片的原主副本中执行所述第一日志记录对应的操作。
9.根据权利要求6所述的方法,其中,在比较所述第一日志记录和所述第二日志记录,判断是否能够确定出两者的数据同步点之后,所述方法还包括:
若未确定出所述数据同步点,则将所述目标分片的原主副本的所述第二日志记录替换为所述第一日志记录,并在所述目标分片的原主副本中执行所述第一日志记录对应的操作。
10.根据权利要求1-4、6-9任一项所述的方法,其中,在修复所述目标分片的原主副本的数据之后,所述方法还包括:
将所述目标分片的原主副本,以所述目标分片的当前主副本的从副本的身份加入所述分布式存储系统。
11.根据权利要求1或2所述的方法,其中,所述监测目标分片的副本的在线数量的步骤包括:
以广播的方式向所述分布式存储系统的各节点发送查找所述目标分片的副本的请求,所述请求中携带有所述目标分片的副本的标识;
接收所述各节点返回的响应信息;以及
根据所述响应信息确定所述目标分片的副本的在线数量。
12.根据权利要求2-4、6-9任一项所述的方法,其中,当所述目标分片包括多个时,所述监测目标分片的副本的在线数量的步骤包括:
按照指定的顺序,依次对多个目标分片的副本的在线数量进行监测。
13.一种分布式存储系统数据修复的装置,包括:
监测模块,适于监测目标分片的副本所在节点是否出现故障,其中,所述目标分片具有用于接收并响应数据请求的主副本和用于同步该主副本的数据操作的从副本,所述主副本和所述从副本位于分布式存储系统的不同节点;
进程重启模块,适于若监测到所述目标分片的副本所在节点出现故障,重新启动与所述目标分片的副本对应的进程;以及
数据修复模块,适于修复故障节点上所述目标分片的副本的数据;
若确定所述目标分片的原主副本所在节点为所述故障节点,所述数据修复模块还适于:在所述目标分片的当前主副本与所述目标分片的原主副本之间进行数据同步;或者在所述目标分片的当前从副本与所述目标分片的原主副本之间进行数据同步;
若确定所述目标分片的原从副本所在节点为所述故障节点,所述数据修复模块还适于:将所述目标分片的当前主副本的数据同步至所述目标分片的原从副本。
14.根据权利要求13所述的装置,其中,所述监测模块还适于:
监测目标分片的副本的在线数量;以及
当监测到所述目标分片的副本的在线数量与预设数量不一致时,确定所述目标分片的副本所在节点出现故障。
15.根据权利要求14所述的装置,其中,所述监测模块还适于:
获取所述分布式存储系统的meta信息,其中,所述meta信息中记录了所述分布式存储系统中各分片的副本的在线状态;
在所述meta信息中查找所述目标分片的副本的在线状态;以及
根据所述目标分片的副本的在线状态,确定所述目标分片的副本的在线数量。
16.根据权利要求15所述的装置,其中,
若所述meta信息存储在所述分布式存储系统的一个或多个节点,当所述一个或多个节点中的任意一个节点上的分片的副本的在线状态发生变化时,对应修改该任意一个节点的meta信息,并广播给所述一个或多个节点中的其它节点,同步修改该其它节点上的meta信息;
所述监测模块还适于:
从所述一个或多个节点处获取所述meta信息。
17.根据权利要求15或16所述的装置,其中,
所述meta信息中还记录了所述分布式存储系统中各分片的副本存储在哪个节点;
所述装置还包括故障节点确定模块,适于:
在所述meta信息中查找所述目标分片的副本所在节点;以及
根据所述目标分片的副本所在节点以及副本的在线状态,确定所述故障节点。
18.根据权利要求13所述的装置,其中,所述数据修复模块还适于:
获取所述目标分片的当前主副本的第一日志记录以及所述目标分片的原主副本的第二日志记录;
比较所述第一日志记录和所述第二日志记录,判断是否能够确定出两者的数据同步点;以及
若确定出所述数据同步点,则根据所述数据同步点,在所述目标分片的当前主副本与所述目标分片的原主副本间进行数据同步。
19.根据权利要求18所述的装置,其中,所述数据修复模块还适于:
根据所述数据同步点,确定存在于所述第一日志记录、且未存在于所述第二日志记录的第一日志记录增量,以及未存在于所述第一日志记录、且存在于所述第二日志记录的第二日志记录增量;以及
在所述目标分片的原主副本中执行所述第一日志记录增量对应的操作,以及在所述目标分片的当前主副本中执行所述第二日志记录增量对应的操作。
20.根据权利要求18所述的装置,其中,所述数据修复模块还适于:
若未确定出所述数据同步点,则获取所述目标分片的当前主副本上的所有数据;以及
将所述目标分片的原主副本上的数据替换为获取的所述所有数据,以及将所述目标分片的原主副本的所述第二日志记录替换为所述第一日志记录,并在所述目标分片的原主副本中执行所述第一日志记录对应的操作。
21.根据权利要求18所述的装置,其中,所述数据修复模块还适于:
若未确定出所述数据同步点,则将所述目标分片的原主副本的所述第二日志记录替换为所述第一日志记录,并在所述目标分片的原主副本中执行所述第一日志记录对应的操作。
22.根据权利要求13-16、18-21任一项所述的装置,其中,还包括:
加入模块,适于在所述数据修复模块修复所述目标分片的原主副本的数据之后,将所述目标分片的原主副本,以所述目标分片的当前主副本的从副本的身份加入所述分布式存储系统。
23.根据权利要求13或14所述的装置,其中,所述监测模块还适于:
以广播的方式向所述分布式存储系统的各节点发送查找所述目标分片的副本的请求,所述请求中携带有所述目标分片的副本的标识;
接收所述各节点返回的响应信息;以及
根据所述响应信息确定所述目标分片的副本的在线数量。
24.根据权利要求14-16、18-21任一项所述的装置,其中,所述监测模块还适于:
当所述目标分片包括多个时,按照指定的顺序,依次对多个目标分片的副本的在线数量进行监测。
CN201510890665.9A 2015-12-07 2015-12-07 分布式存储系统数据修复的方法和装置 Active CN105550229B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510890665.9A CN105550229B (zh) 2015-12-07 2015-12-07 分布式存储系统数据修复的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510890665.9A CN105550229B (zh) 2015-12-07 2015-12-07 分布式存储系统数据修复的方法和装置

Publications (2)

Publication Number Publication Date
CN105550229A CN105550229A (zh) 2016-05-04
CN105550229B true CN105550229B (zh) 2019-05-03

Family

ID=55829418

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510890665.9A Active CN105550229B (zh) 2015-12-07 2015-12-07 分布式存储系统数据修复的方法和装置

Country Status (1)

Country Link
CN (1) CN105550229B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106201788A (zh) * 2016-07-26 2016-12-07 乐视控股(北京)有限公司 用于分布式存储集群的副本修复方法及系统
CN106445411A (zh) * 2016-09-13 2017-02-22 乐视控股(北京)有限公司 一种数据读取方法、装置及分布式存储系统
CN107870829B (zh) * 2016-09-24 2022-03-08 华为技术有限公司 一种分布式数据恢复方法、服务器、相关设备及系统
CN107015876B (zh) * 2016-10-10 2020-07-28 阿里巴巴集团控股有限公司 一种业务请求处理方法及装置
CN108153615B (zh) * 2016-12-02 2019-07-23 中科星图股份有限公司 一种故障数据恢复方法
CN108156189B (zh) * 2016-12-02 2019-03-08 中科星图股份有限公司 一种多节点系统中冗余数据处理方法
CN106951443B (zh) * 2017-02-15 2020-03-13 北京百度网讯科技有限公司 基于分布式系统的副本同步的方法、设备和系统
CN106936899B (zh) * 2017-02-25 2021-02-05 九次方大数据信息集团有限公司 分布式统计分析系统的配置方法及分布式统计分析系统
CN107357689B (zh) * 2017-08-02 2020-09-08 郑州云海信息技术有限公司 一种存储节点的故障处理方法及分布式存储系统
CN108647118B (zh) * 2018-05-15 2021-05-07 新华三技术有限公司成都分公司 基于存储集群的副本异常恢复方法、装置及计算机设备
CN110096237B (zh) * 2019-04-30 2022-02-08 北京百度网讯科技有限公司 副本处理方法及节点、存储系统、服务器、可读介质
CN110113217B (zh) * 2019-05-23 2022-04-22 北京达佳互联信息技术有限公司 微服务管理方法、装置、管理平台及存储介质
CN110457167A (zh) * 2019-08-20 2019-11-15 北京博睿宏远数据科技股份有限公司 副本处理方法、装置、设备和介质
CN112711376B (zh) * 2019-10-25 2022-12-23 北京金山云网络技术有限公司 对象存储系统中对象主副本文件的确定方法及装置
CN111444274B (zh) * 2020-03-26 2021-04-30 上海依图网络科技有限公司 数据同步方法、数据同步系统及其装置、介质和系统
CN112711382B (zh) * 2020-12-31 2024-04-26 百果园技术(新加坡)有限公司 基于分布式系统的数据存储方法、装置和存储节点

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102508835A (zh) * 2011-09-22 2012-06-20 用友软件股份有限公司 基于日志管理包的增量数据实时同步装置和方法
CN102609454A (zh) * 2012-01-12 2012-07-25 浪潮(北京)电子信息产业有限公司 一种分布式文件系统中的副本管理方法
CN103294787A (zh) * 2013-05-21 2013-09-11 成都市欧冠信息技术有限责任公司 分布式数据库系统的多副本存储方法和系统
CN103729436A (zh) * 2013-12-27 2014-04-16 中国科学院信息工程研究所 一种分布式元数据管理方法及系统
CN105049258A (zh) * 2015-08-14 2015-11-11 深圳市傲冠软件股份有限公司 网络容灾系统的数据传输方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101544356B1 (ko) * 2012-10-31 2015-08-13 삼성에스디에스 주식회사 메타데이터 및 트랜잭션 발생량을 고려한 동적 샤딩 기능을 지원하는 분산 데이터베이스 관리 방법 및 그 구성 노드

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102508835A (zh) * 2011-09-22 2012-06-20 用友软件股份有限公司 基于日志管理包的增量数据实时同步装置和方法
CN102609454A (zh) * 2012-01-12 2012-07-25 浪潮(北京)电子信息产业有限公司 一种分布式文件系统中的副本管理方法
CN103294787A (zh) * 2013-05-21 2013-09-11 成都市欧冠信息技术有限责任公司 分布式数据库系统的多副本存储方法和系统
CN103729436A (zh) * 2013-12-27 2014-04-16 中国科学院信息工程研究所 一种分布式元数据管理方法及系统
CN105049258A (zh) * 2015-08-14 2015-11-11 深圳市傲冠软件股份有限公司 网络容灾系统的数据传输方法

Also Published As

Publication number Publication date
CN105550229A (zh) 2016-05-04

Similar Documents

Publication Publication Date Title
CN105550229B (zh) 分布式存储系统数据修复的方法和装置
US11086555B1 (en) Synchronously replicating datasets
US9251233B2 (en) Merging an out of synchronization indicator and a change recording indicator in response to a failure in consistency group formation
US9251230B2 (en) Exchanging locations of an out of synchronization indicator and a change recording indicator via pointers
US9690823B2 (en) Synchronizing copies of an extent in an append-only storage system
WO2016101718A1 (zh) 数据补全方法和装置
US20150213100A1 (en) Data synchronization method and system
CN103729436A (zh) 一种分布式元数据管理方法及系统
CN103929500A (zh) 一种分布式存储系统的数据分片方法
US8676750B2 (en) Efficient data synchronization in a distributed data recovery system
CN102368267A (zh) 一种维护分布式系统中副本一致性的方法
TW201314470A (zh) 分散式儲存系統管理裝置及方法
CN103034564B (zh) 数据容灾演练方法、数据容灾演练装置及系统
CN105550230B (zh) 分布式存储系统节点故障的侦测方法和装置
JP2007241486A (ja) 記憶装置システム
CN103475716A (zh) 通过共享存储实现数据共享的方法和系统
WO2013091212A1 (zh) 一种分布式存储系统中分区管理方法、设备及系统
CN107038092B (zh) 一种数据复制方法及装置
CN106372160A (zh) 一种分布式数据库及管理方法
CN104636218B (zh) 数据恢复方法及装置
CN108733516A (zh) 多云安全存储动态平衡备份方法及系统
CN102629223B (zh) 一种数据修复方法及装置
WO2015087509A1 (ja) 状態保存復元装置、状態保存復元方法、および、記憶媒体
CN105323271B (zh) 一种云计算系统以及云计算系统的处理方法和装置
CN105892954A (zh) 基于多副本的数据存储方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220721

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.

TR01 Transfer of patent right