CN112955873B - 用于同步镜像文件系统的方法及其存储设备 - Google Patents
用于同步镜像文件系统的方法及其存储设备 Download PDFInfo
- Publication number
- CN112955873B CN112955873B CN201980073612.4A CN201980073612A CN112955873B CN 112955873 B CN112955873 B CN 112955873B CN 201980073612 A CN201980073612 A CN 201980073612A CN 112955873 B CN112955873 B CN 112955873B
- Authority
- CN
- China
- Prior art keywords
- page
- storage device
- transaction
- cache
- memory block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003860 storage Methods 0.000 title claims abstract description 197
- 238000000034 method Methods 0.000 title claims abstract description 86
- 230000015654 memory Effects 0.000 claims abstract description 73
- 230000008859 change Effects 0.000 claims abstract description 69
- 238000004891 communication Methods 0.000 claims abstract description 21
- 230000004048 modification Effects 0.000 claims description 24
- 238000012986 modification Methods 0.000 claims description 24
- 230000010076 replication Effects 0.000 description 23
- 230000001360 synchronised effect Effects 0.000 description 23
- 230000002776 aggregation Effects 0.000 description 22
- 238000004220 aggregation Methods 0.000 description 22
- 238000012545 processing Methods 0.000 description 11
- 230000009977 dual effect Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000013500 data storage Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000032823 cell division Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003362 replicative effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013403 standard screening design Methods 0.000 description 1
- 239000004557 technical material Substances 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2053—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
- G06F11/2056—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
- G06F11/2082—Data synchronisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1446—Point-in-time backing up or restoration of persistent data
- G06F11/1458—Management of the backup or restore process
- G06F11/1464—Management of the backup or restore process for networked environments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1474—Saving, restoring, recovering or retrying in transactions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2053—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
- G06F11/2094—Redundant storage or storage space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/178—Techniques for file synchronisation in file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/84—Using snapshots, i.e. a logical point-in-time copy of the data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/88—Monitoring involving counting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
公开了用于在第一存储设备和第二存储设备之间的通信网络中同步输入/输出(input/output,简称IO)事务的方法和设备。所述方法由所述第二存储设备执行。所述方法包括:识别同步期间从所述第一存储设备接收的IO事务对应的第一对象的执行状态。当所述执行状态指示当前基于从所述第一存储设备接收的后台快照对所述第一对象进行更新时,所述方法包括:将所述第一对象对应的后台(background,简称BG)IO事务提交至所述第二存储设备的缓存;以及在完成将所述BG IO事务提交至所述缓存时,向所述缓存的内存块的页面附加更改,其中,所述附加页面在所述BG IO事务更改的所述缓存的固定内存块范围内。
Description
技术领域
本文所描述的本主题一般涉及存储技术领域以及存储系统中的数据复制方法。更具体地,本主题涉及应用于存储设备的用于在同步复制环境中处理镜像文件系统的高效聚合的方法。
背景技术
为了在2中心容灾系统中存储和保护数据,可以采用同步复制环境,将各自站点处的两个数据中心的数据卷相互镜像。因此,在正常操作下,站点A的主动数据中心的文件系统将读写文件系统导出到客户端,如果站点A的主动数据中心发生故障,则站点B的被动数据中心的镜像文件系统将被制作为主动读写文件系统,并开始为客户端操作服务。文件系统架构基于对象。每个文件作为对象,每个文件系统是对象的集合。
通常,在建立站点A和站点B的数据中心之间的同步复制关系之前,站点A的数据中心包括主动文件系统(active file system,简称AFS),站点B的数据中心具有空文件系统。图1A示出了在建立本文描述的同步复制关系之前存在于数据中心A和B的文件系统的示例性场景。如图1所示,站点A的数据中心包括AFS,以及几个用户快照“快照3、快照2和快照1”。快照可以理解为数据集的副本,该副本包括特定时间点(复制的起始时间点)对应数据的图像,或者该快照可以理解为一个时间点的数据集的副本。此外,站点A的数据中心存在的AFS从客户端接收写入站点A的数据中心的存储设备的缓存中的与AFS的对象相关的IO操作/IO事务。当前正在进行到站点A的IO操作可以称为前台IO事务(或简单称为前台IO)。这里,站点B的数据中心显示为空,因为在站点A和站点B的数据中心之间尚未建立同步关系。
图1B示出了在建立了本文所述的同步复制关系之后,在站点A的AFS初始同步到站点B的数据中心期间,存在于数据中心A和B的文件系统的示例性场景。在建立了同步复制关系之后,首先需要将站点A的AFS同步到站点B。如图1B所示,站点A和站点B的两个数据中心相互建立了同步复制关系,前台IO仍然仅写入站点A。此外,图1B示出了当快照3被复制到站点B时用户快照快照1和快照2已经被复制。
应理解,在同步复制环境中运行的数据中心支持创建快照,以将AFS(称为源文件系统)从站点A的数据中心复制到站点B的目标(称为目标文件系统)。在复制用户快照(快照1、快照2和快照3)后,在站点A的AFS顶部周期性地创建新的快照,并将新创建的快照复制到站点B的目标文件系统,以将AFS同步到站点B的目标文件系统。为了将AFS同步到目标文件系统而进行的新快照的创建和创建的快照的复制持续到为每个快照传输的数据量低于预定义的阈值,例如小于100MB为止。在这样的场景中,可以说站点A的AFS和站点B的目标文件系统即将达到聚合状态,此时,站点B的目标文件系统快与站点A的AFS达到数据一致性。在达到聚合状态时,通过双写操作,从主机接收的前台IO开始在站点B的目标文件系统中与站点A的AFS接收的前台IO同步地进行复制。在聚合期间,当在站点A和站点B执行双写操作模式时,待与目标文件系统同步的AFS的少量数据(称为AFS增量)也被复制为后台IO事务(或简单称为后台IO)。当AFS增量完全传输到站点B时,可以说站点A和站点B的数据中心是同步的。
图2示出了聚合状态期间在站点A和站点B之间执行前台IO的双写模式操作并同时将AFS增量复制到站点B作为后台IO时的应用场景。如上所述,在预聚合阶段,即在达到聚合状态之前,通过在AFS上创建新快照(CstSnap)在站点B的目标文件系统上周期性地复制AFS。这是有必要的,由于正在复制用户快照(快照1、快照2和快照3)时,前台IO正在进行中,因此正将更多的数据写入AFS。当最后一个复制快照(即创建的快照)传输到目标文件系统的数据小于阈值(例如100MB)时,执行双写模式操作以启动聚合并将前台IO写入站点A的AFS和站点B的目标文件系统中。在这种聚合状态下,AFS增量也作为后台IO传输至目标文件系统。为了理解在后台IO中传输的数据,图2示出了在AFS上创建的两个快照“CstSnap”和“SnapConv”,AFS用于将AFS的数据复制到站点B的目标文件系统。创建新的快照(SnapConv)以获得AFS的数据和最后一个快照复制的数据之间的差异。新快照(SnapConv)是在启动双写模式后创建的,以便不会丢失从主机接收的主动IO。后台IO是SnapConv和CstSnap之间的差异,需要将其传输到站点B以完成站点A的AFS和站点B的目标文件系统之间的同步。
因此,在同步复制环境中,可以同时将前台IO和后台IO传输至站点B的目标文件系统,并且可选地修改其它并行IO可以使用的相同元数据。在具有主动快照的数据存储系统中,占用一部分内存块的特定块可以接收两个并发非重叠子块写入。如果该块在当前快照生命周期中未接收到IO请求,但之前已接收到IO请求,则有必要为第一个写入执行读-修改-写周期。如果不存在同步机制,则两个子块IO将开始独立的读-修改-写操作,而不知道另一个IO正在同一个块上操作。因此,这两个操作将转换为不一致的块写入,其中一个将覆盖另一个,从而导致数据损坏。
在当前情况下,由于前台IO和后台IO都在进行中,因此它们在写入到目标时可能会重叠,而导致损坏。但是,由于并行执行,同一对象的前台IO(FG IO)和后台IO(BG IO)可以按照任意顺序写入。当聚合期间在站点B的目标文件系统接收到FG IO时,FG IO为每个事务都采取锁。事务可能涉及对许多对象(包括文件、其父目录、固定表等)的更改。FG IO同时对每个对象采取单独的锁。如果有任何锁失效,则重试整个锁定过程,事务可能在超时后失败且将错误返回到客户端。持有锁一直到IO写入目标并返回ACK。每个锁都指对象ID、偏移量和长度。FG锁阻止任何可能间接引用相同父对象、固定表等的不相关前台IO。FG锁也将阻止尝试在同一时刻复制相同对象的BG IO。
BG IO还为每个正在复制的对象采取锁。如果BG IO为特定对象采取锁,则直到接收到ACK才释放锁。所有FG IO都可能因此被阻止。锁是在执行读操作之前采取的,因此读取延迟增加了持有锁的时间。
FG IO事务在字节级粒度上影响更改,例如,对象1的更改偏移量为512,128个字节发生更改。如果客户端发送的FG IO修改了文件元数据,则它将导致具有两个对象、文件更改和目录更改的事务。然而,BG IO事务影响更改时,总是在8K内存范围内,或者在固定内存范围内,对于同一对象,该更改的长度总是显著大于对应的FG IO。BG IO单独获得每个对象,即单独文件、单独父目录的更改。差异由与BG IO相关联的对象ID、偏移量和长度获得。图3示出了在FG IO中更改对象ID为0x1234的对象但BG IO正在从AFS将同一对象以相同的偏移量以及8K的粒度传输时的示例性场景。双写FG IO总是复制在BG IO上,因此应被视为对象的最新事务。FG IO和BG IO对整个事务采取锁以序列化该事务。
与获取FG IO或BG IO为每个对象采取的锁相关联的许多缺点中的一些缺点要么阻止了前台IO要么阻止了后台IO。持有锁一直到从目标接收到ACK并且无法将受影响的阻止IO写入源。这反过来,将阻止任何后续的前台和后台IO事务,并将阻止前台读取IO。例如,如果两个数据中心存储系统的平均延迟为1毫秒,则每个锁将被持有至少1毫秒从而延迟后续从属事务,因为这些事务将被阻止而等待锁。发送到远程执行的IO事务,没有预定义的执行顺序。此外,锁的引入使事务按顺序执行并降低性能。由2中心存储系统定义的最大超时可能为22秒,这意味着在取消IO之前持有锁22秒。在现有的2中心数据存储系统150K的最大IOPS支持下,这种锁定显著降低了吞吐量,增加了延迟并导致了主机侧的超时/错误。锁定导致“聚合阶段延迟”和IO吞吐量大幅降低,直到聚合完成或聚合本身失败,且两个站点从未实现完全同步状态。这可能会延迟在聚合阶段触发的快照创建操作。例如,FG IO在聚合阶段不断修改大文件,因此锁会产生问题。
在同步复制环境中使用两个数据中心的当前存储系统的工作原理是上述锁定机制,这种锁定机制延迟了针对高吞吐量工作负载的聚合阶段。因此,现有的数据存储解决方案需要提高存储系统在镜像文件系统聚合期间的性能。
发明内容
本发明内容用于引入与应用于存储设备的用于在同步复制环境中处理镜像文件系统的高效聚合的方法和系统相关的概念。
相应地,本发明一方面提供了一种用于在第一存储设备和第二存储设备之间的通信网络中同步输入/输出(input/output,简称IO)事务的方法。所述方法由所述第二存储设备执行。所述方法包括:识别从所述第一存储设备接收的IO事务对应的第一对象。所述方法还包括:识别所述第一对象的执行状态。当所述执行状态指示当前基于从所述第一存储设备接收的后台快照对所述第一对象进行更新时,所述方法还包括:将后台IO事务提交至所述第二存储设备的缓存;以及在完成将所述后台IO事务提交至所述缓存时,向所述缓存的内存块的页面附加更改,其中,所述附加页面在所述后台IO事务更改的所述缓存的固定内存块范围内。
根据本发明一方面,当所述执行状态指示当前未基于从所述第一存储设备接收的后台快照对所述第一对象进行更新时,所述方法包括:将同步期间接收的所述IO事务提交至所述第二存储设备的缓存;以及在完成将所述IO事务提交至所述缓存时,向所述缓存提交所述BG IO事务,其中,所述BG IO事务更改的缓存的固定内存块范围包括所述IO事务更改的内存块的页面更改。
相应地,本发明另一方面提供了一种用于在第一存储设备和第二存储设备之间的通信网络中同步IO事务的第二存储设备。所述第二存储设备包括存储控制器和缓存。所述存储控制器用于识别同步期间从所述第一存储设备接收的IO事务对应的第一对象。所述存储控制器还用于识别所述第一对象的执行状态。当所述执行状态指示当前基于从所述第一存储设备接收的后台快照对所述第一对象进行更新时,所述存储控制器还用于将所述第一对象对应的后台(background,简称BG)IO事务提交至所述第二存储设备的缓存;以及在完成将所述BG IO事务提交至所述缓存时,向所述缓存的内存块的页面附加更改,其中,所述附加页面在所述BG IO事务更改的所述缓存的固定内存块范围内。
根据本发明一方面,当所述执行状态指示当前未基于从所述第一存储设备接收的后台快照对所述第一对象进行更新时,所述存储控制器用于将同步期间接收的所述IO事务提交至所述第二存储设备的缓存;以及在完成将所述IO事务提交至所述缓存时,向所述缓存提交所述BG IO事务,其中,所述BG IO事务更改的缓存的固定内存块范围包括所述IO事务更改的内存块的页面更改。
本发明的其它方面和特征将在本领域普通技术人员结合附图回顾本发明的具体实施例的以下描述后变得显而易见。
附图说明
该详细描述是参考附图描述的。显然,以下描述中的附图仅仅示出了本发明的部分实施例。
图1为建立站点A与站点B之间的同步关系前后2中心存储系统的应用场景示意图;
图2为从主机接收前台IO进行双写操作的2中心存储系统的应用场景示意图;
图3为从源站点A接收BG IO到目标站点B的2中心存储系统的应用场景示意图;
图4为本发明实施例提供的2中心存储系统的应用场景示意图;
图5示出了本发明实施例提供的用于在第一存储设备和第二存储设备之间同步IO操作的方法;
图6示出了本发明实施例提供的用于在第一存储设备和第二存储设备之间同步IO操作的方法;
图7示出了本发明实施例提供的执行表的示例;
图8示出了本发明实施例提供的用于在第一存储设备和第二存储设备之间同步IO操作的方法;
图9示出了本发明实施例提供的的示例性应用场景;
图10示出了本发明实施例提供的一种存储设备的示意性结构。
应理解,附图是为了说明本发明的概念,并且可能不是按比例绘制。
具体实施方式
本发明可以有多种方式实现,包括实现为过程、装置、系统、计算机可读介质例如计算机可读存储介质,或者其中程序指令经由光学或电子通信链路发送的计算机网络。在本说明书中,这些实施方式或者本发明可以采取的任何其它形式可以称为技术。一般情况下,所公开过程的步骤顺序可以在本发明的范围内进行更改。
下面提供了本发明的一个或多个实施例的详细描述以及说明本发明原理的附图。本发明是结合这些实施例进行描述,但是本发明不限于任何实施例。本发明的范围仅由权利要求书限制,并且本发明包括许多替代方案、修改和等同物。为了提供对本发明的透彻理解,下文描述中阐述了许多具体细节。提供这些细节用于举例,本发明可以根据权利要求书实现,不需要部分或者所有这些具体细节。为了清楚描述,没有对与本发明相关技术领域中已知的技术材料进行详细描述,从而避免对本发明造成不必要地模糊。
下文描述中陈述许多具体细节,以对本发明各实施例进行通彻理解。然而,本领域的技术人员将明白可以在没有这些具体细节的情况下实践本发明。在其它实例中没有详细描述众所周知的方法、流程、部件,以免对本发明造成模糊。
尽管本发明实施例对此不作限制,但是利用“处理”、“计算”、“确定”、“建立”、“分析”以及“检查”等术语进行的讨论可以指计算机、计算平台、计算系统或其它电子计算设备的操作和/或处理,其将表示为计算机寄存器和/或存储器中的物理(例如,电子)量的数据操作和/或转换为类似地表示为计算机寄存器和/或存储器中的物理量的其它数据或可以存储执行操作和/或处理指令的非瞬时性存储介质中的其它信息。
尽管本发明实施例对此不作限制,但本文使用的术语“多个”可以包括“两个或更多个”。术语“多个”可以在整个说明书中使用来描述两个或更多个组件、设备、元件、单元、参数等。除非明确说明,否则此处描述的方法实施例不限于特定的顺序。此外,所描述的方法实施例或其元素中的某些可以同时或并发发生或执行。
需要时,借助示例性图和一个或多个示例来解释本发明的某些实施例。然而,提供这些示例性图和示例仅为了更好地理解本发明,不应理解为对本发明的范围的限制。
公开了用于在第一存储设备的源文件系统和第二存储设备的目标文件系统之间的通信网络中同步输入/输出(input/output,简称IO)事务的方法。在同步复制环境中,第一存储设备和第二存储设备在通信网络中互相通信,即源文件系统和目标文件系统为同步复制环境中的镜像文件系统。这里的源文件系统也可以称为主动文件系统(active filesystem,简称AFS),其需要复制到第二存储设备的目标文件系统。
本发明的各方面针对采用镜像文件系统的2数据中心(data center,简称DC)存储系统进行了描述。例如,图4为本发明实施例提供的2中心存储系统的典型应用场景的示意图。图4所示的2DC存储系统包括至少一个主机100和站点10(也称为源站点或站点A)和站点12(也称为目标站点或站点B)分别包括的两个数据中心。两个数据中心可以在专用通信网络中相互连接。专用通信网络可以包括星型组网方式中的光纤或网线等。两个数据中心可以通过互联网协议(Internet Protocol,简称IP)或光纤通道(fiber channel)协议相互进行数据传输。进一步地,主机100可以基于小型计算机系统接口(Small Computer SystemInterface,简称SCSI)协议或基于互联网小型计算机系统接口(Internet Small ComputerSystem Interface,简称iSCSI)协议与站点10和/或站点12进行通信,此处对协议不作限制。进一步地,主机100可以使用网络文件系统协议(Network File System Protocol,简称NFS)或通用互联网文件系统协议(Common Internet File System Protocol,简称CIFS)从站点10和站点12的数据中心访问数据,但不限于此。
主机100可以包括客户端的任何计算设备,也可以称为“客户端设备100”。此类客户端设备100可以包括服务器、台式计算机或应用服务器,或者现有技术中已知的任何其它类似设备。可以在客户端设备100中安装操作系统和其它应用程序。根据本发明实施例,客户端设备100包括文件系统(可以称为主机文件系统),其中,2DC的镜像文件系统从该文件系统接收前台(foreground,简称FG)IO事务。源站点10的文件系统可以称为源文件系统/AFS14,目标站点12的文件系统可以称为目标文件系统16。根据本实施例,源文件系统14和目标文件系统16可以称为2DC所属的同步复制环境的镜像文件系统。
FG IO发送至站点10的AFS,该AFS通过2DC采用的双写操作模式,复制到站点12的文件系统。此处的FG IO也可称为在同步期间从源文件系统发送至目标文件系统的IO事务。当在将AFS同步至目标期间从站点10传输至站点12的数据小于预定义的阈值,例如,小于100MB时,双写模式开始。在站点10的AFS与站点12的目标文件系统聚合的状态下,也通过IO事务(称为后台IO(BG IO))将AFS增量复制到站点12。
根据本发明的教导,同一对象对应的FG IO和BG IO均可发送至目标站点12的目标文件系统16,而无需由源文件系统14获取锁。此处,文件系统14和16的聚合阶段可称为无锁聚合阶段。因此,聚合速度显著加快,且存储系统的存储器和处理单元上没有额外的头。根据本发明实施例,通过上文中详细描述的互锁语义,确定目标文件系统16接收到的当前FGIO和目标文件系统16接收到的传输与FG IO相同对象的数据的并发BG IO的执行顺序。这里的互锁语义是指确定BG IO还是FG IO先到。
图5示出了本发明实施例提供的用于将目标文件系统16和源文件系统,即AFS 14同步的方法500。此处,目标站点12可以在目标文件系统14接收针对同一对象(称为第一对象)的当前FG IO和并发BG IO。根据同步复制环境的原理,可以在用于在2DC存储系统的目标处复制AFS的双写模式操作期间接收FG IO。BG IO是从源站点10的第一存储设备102的源文件系统14处接收的。在本发明中,应理解,FG IO是针对文件系统的对象接收的最新事务,因此FG IO被视为参考IO。此外,FG IO和BG IO无序地传输到目标站点12,并且在目标文件系统16中无序地执行,即,当前FG IO可以在针对同一对象的并发BG IO之前或之后与该并发BG IO重叠。在实现本发明的教导时,当前FG IO和并发BG IO均将数据写入到目标站点12的第二存储设备104的缓存中,具有无需由源文件系统14获得目标文件系统16上的锁来写入各自的IO的优点。
在步骤501中,识别与当前FG IO对应的第一对象。如前所述,当前FG IO可以对目标文件系统14的一个或多个对象执行事务操作。该一个或多个对象包括文件和父目录。识别与FG IO相关联的第一对象,包括识别与FG IO相关联的对象标识符(identifier,简称ID)、变更偏移量以及第一变更长度。第一长度通常为字节级粒度。例如,图9示出了本发明的应用场景。如图9所示,在站点A的AFS处接收到的也将通过双写在目标(也示为AFS)处复制的FG IO接收针对文件更改以及父更改的写操作。第一对象可以是对象ID为0x1234、偏移量为512和长度为128字节的文件对象。在图9的示例中,与FG IO相关联的父目录对象具有对象ID为0x12、偏移量为128和长度为10字节的长度。但是,为了理解本发明的互锁语义,我们可以将第一对象称为对象ID为0x1234、偏移量为512字节和长度为128字节的文件对象。
在步骤502中,判断第一对象是否在目标处存在的更改对象列表中。根据本发明实施例,在目标文件系统16中从第一存储设备的源文件系统14接收对象列表。更改对象列表包括那些构成与后台IO相关联的快照(也称为聚合期间源文件系统14传输至目标文件系统16以传输AFS增量的后台快照)的一部分的更改对象。在第一存储设备的源文件系统14创建后台快照之后,在更改对象列表中枚举所有更改对象并发送到目标。根据一实施例,在开始BG IO传输之前,将更改对象列表传输至目标。第二存储设备104的目标文件系统16接收更改对象列表并将其存储在缓存中。此外,由于列表是只读的,因此访问该列表不需要锁。根据本发明的进一步实施例,在聚合之后销毁该列表。
图9示出了在BG IO开始之前发送到目标文件系统16的一个这样的更改对象列表(示为“ChangeInfo”)的示例。枚举的更改对象列表包括更改对象列表中的每个更改对象的对应对象ID、对应更改偏移量和对应更改长度。与BG IO相关联的更改长度可以是缓存块的固定范围,其显著大于与FG IO相关联的更改长度。例如,固定范围可以是缓存的内存块的8K个字节。如图9所示的更改对象列表包括三个对象:
对象ID 0x0011、偏移量0和8192字节长度;
对象ID 0x0012、1MB和8192;以及
对象ID 0x1234、512和8192。
从图9所示的示例可以看出,由BG IO更改的长度字节被四舍五入至8K个字节。但是,这不应理解为对本发明的限制,其可以为缓存的固定内存块范围。
在步骤502中,如果确定第一对象不在更改对象列表中,则方法进入步骤504。在步骤504中,针对第一对象的FG IO提交至缓存,即,FG IO继续将IO事务写入缓存的内存块的页面,此处称为FG页面。不在更改对象列表中的第一对象意味着FG IO影响的更改程度与可能由在目标处接收的并发BG IO影响的更改程度不冲突,由于此时BG IO和FG IO可能不会对同一对象执行事务操作。因此,在并发BG IO和FG IO到达的任意情况下,目标文件系统16与AFS 14的聚合都不会受到影响。
在步骤502中,如果确定第一对象在更改对象列表中,则方法进入步骤505。在本实施例中,可以假设字节级的与FG IO相关联的第一对象的第一更改长度位于缓存的固定内存块范围内,其中,固定范围表示由更改对象列表指示的对应并发的BG IO对第一对象的更改长度。出于相同原因,更改对象列表中的更改长度被四舍五入为8K个字节。因此,当确定第一对象在更改对象列表中时,假设对应的FG IO对第一对象的第一更改长度为对应的BGIO对第一对象的8K更改长度的一部分。
在本发明另一实施例中,在步骤505之前,方法500包括:判断与对应的FG IO相关联的第一更改长度是否在更改对象列表中的对应更改长度内。仅当第一长度冲突时,方法进入步骤505。例如,图8示出了作为步骤806所描述的实施例。图8在本发明上述实施例中进行了详细描述。如果第一长度不冲突,即,不是更改对象列表中的更改日志的一部分,则表示FG IO和BG IO不冲突,因此将FG IO继续提交至目标站点12的第二存储设备的缓存。
在步骤505中,从第二存储设备维护的执行表中识别第一对象的执行状态。执行状态指示到达第二存储设备104的目标文件系统16的各个FG IO或各个BG IO的执行顺序。在本发明中,第二存储设备维护的执行表中的对象的执行状态是使用互锁存储器语义执行顺序,即,BG IO还是FG IO先到的决定因素。在一种实施方式中,执行状态由到达目标文件系统16的每个FG IO事务和BG IO事务更新的标志状态确定。例如,图7示出了标志的各种状态和从标志状态确定的相应执行顺序的示例。标志0表示针对执行表中的对应对象没有IO到达。标志1表示针对相应对象FG IO已经先到,且在进行中。标志2表示FG IO已经提交至缓存并已完成其执行。标志3表示针对相应对象BG IO已经先到,且在进行中。标志4表示BG IO已经提交至缓存并已完成其执行。
根据本发明,本发明公开的方法确定执行表中第一对象的执行状态,并基于该确定识别当前FG IO是先到达目标文件系统16还是并行BG IO已到达。如果标志状态为0,即,没有IO到达,则FG IO将先提交至缓存,并相应地将标志状态更新为1。因此,当并发BG IO将在FG被提交至缓存时到达,BG IO会知道FG IO正在进行中。当FG IO执行完成时,其将标志状态更新为2。当从执行状态确定的执行顺序指示FG IO已经执行完成时,BG IO将提交至缓存,其中,BG IO对缓存的内存块影响的更改以本发明公开的方式进行。
但是,如果标志状态为3,则FG IO无法直接提交至缓存,由于当时BG IO正在进行中。当BG IO执行完成时,其将标志状态更新为4。当从执行状态确定的执行顺序指示BG IO已经执行完成时,FG IO将提交至缓存,其中,FG IO对缓存的内存块影响的更改以本发明公开的方式进行。
再次参考图5,在步骤505中识别到执行表中第一对象的执行状态时,方法进入步骤506。在步骤506中,判断第一对象是否正受到BG IO的影响。在上述实施方式中,如果标志状态为3,FG IO会知道BG IO正在进行中。但是,如果第一对象不受并行BG IO的影响,即标志状态为0,方法500进入步骤507。在步骤507中,将FG IO事务提交至第二存储设备的缓存。
根据一实施例,如果针对第一对象没有IO到达且当前FG IO即将先到,则将创建具有第一对象的条目的执行表,其中,第一对象的标志状态设置为0。当当前FG IO开始提交至缓存时,标志状态更新为1。其执行完成时,标志状态由FG IO更新为2。
根据本发明的一种实施方式,下面的表A示出了在第二存储设备中维护的执行表的条目,该执行表具有对象ID为0x1234的第一对象,例如:
对象ID | 偏移量 | 标志 | FG页面 | BG页面 |
0x0011 | 1MB | 1 | 0xab23377 | 0x00000000 |
0x0012 | 偏移量2 | 2 | 0x00000000 | 0xddee3322 |
0x01234 | 偏移量3 | 1 | 0xdd446677 | 0x00000000 |
在本发明的一种实施方式中,执行表包括正受到或最近已受到在目标文件系统16中接收到的对应的FG IO或BG IO的影响的对象的详细信息。对象的详细信息至少包括对应的对象ID和对应的偏移量中的至少一个。此外,对象具有标志状态形式的对应的执行状态。进一步地,根据本发明实施例,对象具有各自FG IO和各自BG IO的页面地址。与FG IO相关联的页面地址决定FG IO对对应对象的缓存块的更改程度。该页面地址与FG IO影响的存储块的对应FG页面相关,当FG IO到达目标文件系统16时,该页面由存储在执行表中的FG页面地址识别。类似地,与BG IO相关联的页面地址决定BG IO对缓存的内存块的更改程度。该页面地址与受BG IO影响的内存块的对应BG页面相关,当BG IO到达目标文件系统16时,该页面由存储在执行表中的BG页面地址识别。在本发明中,FG IO和BG IO能够根据各自BG IO和各自FG IO影响的更改,在目标文件系统16针对同一对象并行处理。FG页面占用或位于BG页面的固定范围内。FG IO始终是对缓存的内存块的最新影响,这些内存块占用BG页面的固定范围。
再次参考图5的步骤506,如果从第一对象的标志状态确定第一对象的执行状态为正在进行中的BG IO事务的执行状态,则方法进入步骤508。此处,执行表中的正在进行中的BG IO的标志状态为3。如果从第一对象的标志状态确定第一对象的执行状态为正在进行中的FG IO事务的执行状态,则方法进入步骤507。在步骤507中,将FG IO继续提交至第二存储设备的缓存。
在步骤508中,当确定第一对象正受到正在进行中的BG IO事务的影响,将BG IO提交至缓存,且当前FG IO将其FG页面地址存储在执行表中,并在509中将其执行确认返回至第一存储设备的源文件系统14/AFS。此外,针对分散聚合表(scatter/gather list,简称SGL),FG IO递增FG IO的FG页面引用计数器。当BG IO完成提交至缓存时,如步骤508A所确定的,BG IO将其执行状态更新为2。进一步地,当确定同一对象具有有效FG页面地址时,在步骤510中,将引用计数FG页面附加到并行BG IO在执行时更改的固定内存块范围。此外,当BG IO写入缓存时,递增BG IO引用计数器。当针对同一对象的当前FG IO到达目标文件系统时,FG IO应知道存在有效BG引用计数页面,且它只会附加FG页面,该FG页面位于受BG IO影响的缓存的固定内存块范围内。
图6示出了本发明实施例提供的用于当针对第一对象的当前FG IO在并发BG IO前将要先到达目标文件系统16时,同步目标文件系统16与源文件系统,即AFS 14的方法600。在步骤601中,BG检查针对第一对象的FG IO是否正在进行中,即,当当前FG IO先到达目标文件系统16时更新标志状态为1,BG检测到该标志状态。在确定第一对象的执行状态指示第一对象正受FG IO的影响时,在步骤604中,当FG IO提交至第二存储设备的缓存中时,并发BG IO将BG页面地址存储在第一对象的执行表中。此外,BG针对存储的BG页面地址递增BGIO引用计数器,并且在步骤604中,向第一存储设备的源文件系统14返回其处理的确认。当完成将FG IO提交至缓存时,如步骤603A中确定的,方法进入步骤605。在步骤605中,FG IO事务对缓存的内存块的FG页面影响的更改由并发BG IO重写,其中,FG页面位于缓存的内存块中BG页面的固定范围内。这样,BG IO在BG页面内对FG页面进行合并,并将整个块写入缓存的内存块。此外,当FG IO完成事务时,检查到同一个第一对象具有有效引用计数BG页面地址,其能够合并和写入FG页面到BG页面占用的固定内存块范围内。当并发BG IO影响对BG页面(包括缓存的内存块的更改FG页面)的更改的情况下写入BG IO事务时,递增BG IO引用计数器。
在按照方法500和600中所述的方式将当前FG IO和并发BG IO写入缓存后,FG IO和BG IO针对第一对象的对应条目从执行表中移除。此外,在将各自的FG页面和BG页面写入第二存储设备的缓存时,也释放引用计数页面。
再次参考步骤601,如果当BG IO到达时FG IO完成,BG IO将总是在写入缓存之前先检查针对第一对象的有效FG引用计数页面,以便如果存在有效更改FG页面,则在将BG IO事务写入缓存之前,该页面应合并到BG页面中。
类似地,在图5中,在步骤506中,如果确定BG IO完成,则在将FG IO提交至缓存之前,FG IO将总是先检查针对第一对象的有效BG引用计数页面,然后写入缓存,以便如果存在有效更改BG页面,则FG页面可以将更改的FG页面附加到占用更改BG页面的缓存的固定内存块范围。
图8示出了当与当前FG IO相关联的第一对象的第一长度可能与针对同一个第一对象的最新BG IO相关联的第一对象的对应长度冲突时的确定方法800。如果由第一长度确定的对应当前FG IO对缓存的内存块的更改程度不与针对相同对象的最新BG IO的更改程度冲突,则不要求合并和写入BG和FG页面,这是由于到达目标文件系统的FG IO和BG IO能够写入缓存的不同部分,其中,缓存的不同部分被明显分开,从而相应的FG IO事务或BG IO事务发生任何重叠。因此,无论如何,无需由文件系统获取目标文件系统上的锁。
参考图8,确定对象升序时第一对象的第一顺序。这里的对象的顺序指的是对象在目标文件系统16、文件、父目录和头目录等中的排列顺序。例如,它们可以称为对象0、对象1、对象2、……、对象N。对象由对应的对象ID标识。在步骤802中,将确定的第一顺序与受到目标文件系统16中接收的最新BG IO影响的第二对象的第二顺序进行比较。应理解,BG IO事务总是被排序并且移动方向为对象0、对象1、……、对象N,即以对象的升序移动。在步骤803中,判断第一顺序是否高于第二顺序。如果确定第一顺序较小,则确定没有冲突,且将当前FG IO提交至第二存储设备的缓存中。例如,如果正受到最新BG IO影响的第二对象的第二顺序为3,且针对第一对象的FG IO到达的顺序为0,则FG IO可以继续提交至第二存储设备的缓存中。但是,如果第一顺序高于第二顺序,则方法进入步骤805。在步骤805中,确定与针对第一对象的当前FG IO相关联的第一更改长度。当确定第一对象在更改对象列表中时,确定第一更改长度。如果第一对象在更改对象列表中,该列表将包括与在目标文件系统16中接收的BG IO快照相关联的第一对象的对应长度。进一步地,在步骤806中,判断第一更改长度是否在更改对象列表中指示的对应长度内。如果第一更改长度与更改对象列表中指示的对应长度不冲突,则方法进入步骤807。在步骤807中,将当前FG IO继续提交至第二存储设备的缓存。但是,如果确定第一更改长度在更改对象列表中的对应长度内,则方法进入步骤808。在步骤808中,第二存储设备维护执行表。基于执行表中执行状态的确定,确定是当前FG IO还是并发BG IO先到达,其中,当前FG IO和并发BG IO针对同一个第一对象。
图9示出了本发明的教导提供的实现用于同步目标文件系统和源文件系统,即AFS14的方法50、600和800的示例性场景。但是,这些示例仅用于说明更改对象列表和目标站点B的第二存储设备中维护的执行表,不应理解为对本发明的限制。
图9A示出了包括待与目标站点B的数据存储中的AFS同步的AFS的源站点A的数据存储。在实现本发明的2中心数据存储系统中接收到的FG IO通过双写操作写入源站点A和目标站点B的数据中心。FG IO用于文件对象(0x1234、512和138),其中,对象ID为0x1234,偏移量为512字节,更改长度为138字节,用于父目录对象(0x12、128和10),其中,对象ID为0x12,偏移量为128字节,更改长度为10字节。图9A还示出了在发送BG快照之前,从源站点A向目标站点B(示为“远程”)发送一个枚举了更改对象的更改对象列表(示为“ChangeInfo”)。
图9B示出了针对对象(0x1234、512和8196)的BG IO写入已经开始。确定针对第一对象(0x1234、512和128)的当前FG IO呈现在目标站点B中存在的更改对象列表中。因此,在第二存储设备中维护执行表,其示为“存储针对特定对象ID的FG或BG IO是否更新到缓存的表”。在本示例中,针对第一对象的并发BG IO尚未到达目标站点B。因此,将第一对象(0x1234)的标志状态设置为1,且将当前提交至缓存的FG页面地址存储在第一对象对应的FG页面列中。
图9C示出了执行表中存储的BG页面地址的BG IO引用计数页面和执行表中存储的FG页面地址的FG IO引用计数页面的示例。
图9D示出了当针对对象(0x0012)的FG IO提交至缓存完成且BG开始时,将该对象的标志状态从标志2(如图9C所示)更改为标志3的示例。
上述公开解释了上述方法500、600和800中公开的采用本发明的2中心数据中心存储系统的实现。源站点A的数据中心可以包括第一存储设备102(如图4所示),目标站点B的数据中心包括第二存储设备104(如图4所示)。第一存储设备102和第二存储设备104可以是现有技术中已知的存储阵列或服务器等存储设备。例如,第一存储设备102和第二存储设备104可以包括存储区域网络(storage area network,简称SAN)阵列,也可以包括网络连接存储(network attached storage,简称NAS)阵列。本发明实施例对每个数据中心中存储设备的具体形式不作限定。第一存储设备102和第二存储设备104之间的距离可以达到200公里。第一存储设备102和第二存储设备可以在同一城市或者不同的城市,只要能够实现第一存储设备102和第二存储设备104之间的数据的同步复制即可。
第一存储设备102和第二存储设备104在源站点A和源站点B形成各自的存储空间,用于存储客户端设备的主机文件系统。根据本发明实施例,当源站点A的源文件系统14和目标站点B的目标文件系统16实时同步形成时,称它们具有同步复制关系。
根据本发明实施例,当将AFS增量从源站点A复制到目标站点B以完成源文件系统14和目标文件系统16之间的同步时,第一存储设备102和第二存储设备104继续接收写操作,即,主机发送的传入FG IO事务。根据本发明,在无需由源文件系统14获得锁的情况下进行同步。
图10为本发明实施例提供的执行本发明的存储设备(例如,存储设备104)的结构示意图。图10所示的存储设备104为存储阵列。如图10所示,存储设备104可以包括存储控制器1000和磁盘阵列1014,其中,磁盘阵列1014用于提供存储空间,可以包括廉价冗余磁盘阵列(redundant array of independent disk,简称RAID)或包括多个磁盘的磁盘柜。磁盘阵列1014可以有多个,磁盘阵列1014包括多个磁盘1016。磁盘1016用于存储数据。磁盘阵列1014通过SCSI协议等通信协议与控制器1000通信。协议在此不作限定。
可以理解的是,磁盘阵列1014仅仅是存储系统中的存储器的一个示例。在本发明实施例中,数据也可以通过磁带库等存储器存储。应注意,磁盘1016也仅仅是构建磁盘阵列1014的存储器的一个示例。在实际应用中,例如,为了在包含多个磁盘的机柜之间构建磁盘阵列,还可以有一种实现方式。因此,在本发明实施例中,磁盘阵列1014还可以包括存储器,包括非易失性存储介质,例如固态硬盘(solid state disk,简称SSD)、包含多个磁盘的机柜、或服务器,在此不作限定。
存储控制器1000是存储设备104的“大脑”,主要包括处理器1002、缓存1004、存储器1006、通信总线(简称总线)1010和通信接口1012。处理器1002、缓存1004、存储器1006和通信接口1012通过通信总线1010相互通信。应注意,本发明实施例中,存储设备104中可以有一个或多个控制器1000。可以理解的是,当存储设备104包括至少两个控制器1000时,可以提高存储设备1000的稳定性。
通信接口1012用于与主机100、磁盘1016或其它存储设备(例如源站点A的第一存储设备102)进行通信。
存储器1006用于存储程序1008。存储器1006可以包括高速随机存取存储器(random access memory,简称RAM),或者还可以包括非易失性存储器,例如至少一个磁盘存储器。可以理解的是,存储器1006可以是各种可以存储程序代码的非瞬时性机器可读介质,例如RAM、磁盘、硬盘驱动器、光盘、SSD或非易失性存储器。
程序1008可以包括程序代码,程序代码包括计算机操作指令。
缓存1004是控制器和硬盘驱动器之间的存储器,其容量小于硬盘驱动器,但速度快于硬盘驱动器。缓存1004用于临时存储数据,例如从主机或其它存储设备(例如,源站点A的第一存储设备102)接收的IO事务,并临时存储从磁盘216读取的数据,以提高阵列的性能和可靠性。缓存204可以是各种可以存储数据的非瞬时性机器可读介质,例如RAM、ROM、闪存或SSD,此处不作限定。根据本发明实施例,缓存1004用于存储更改对象列表并维护执行表。可选地,当接收到BG IO并将其提交至缓存1004时,可以将更改对象列表中的BG IO条目移除。执行表中的地址表条目可以是在地址表条目对应的FG IO或BG IO完成/提交至缓存1004之后收集的垃圾。
处理器1002可以是中央处理器(central processing unit,简称CPU)或专用集成电路(application-specific integrated circuit,简称ASIC),或者被配置为实现本发明实施例的一个或多个集成电路。处理器1002中安装有操作系统和其它软件程序,不同的软件程序可以被视为不同的处理模块,具有不同的功能,例如处理磁盘1016的输入/输出(input/output,简称I/O)请求、对磁盘1016中的数据进行其它处理,或者修改存储设备104中保存的元数据。因此,根据本发明的教导,存储控制器1000可以实现IO操作、快照、镜像、复制以及目标文件系统16和第一存储设备104的源文件系统14之间的同步等各种数据管理功能。在本发明实施例中,处理器1002用于执行程序1008,具体可以执行上述方法实施例中的相关步骤。
可以理解的是,在本发明实施例中,第一存储设备102和第二存储设备104的硬件结构可以是类似的。
本领域技术人员可以理解用于实现本发明的任何已知的或新的算法。然而,应注意,无论使用任何已知的或新的算法,本发明提供的方法都能够实现上述益处和技术改进。
本领域普通技术人员能够认识到,结合本说明书所公开的实施例中所描述的示例,可通过电子硬件或计算机软件与电子硬件的组合来实施单元和算法步骤。功能是由硬件还是由软件执行取决于技术方案的特定发明和设计约束条件。本领域技术人员可使用不同方法实现每个特定发明的所描述功能,但是不应认为该实现超出本发明的范围。
在本应用中提供若干实施例中,应理解,所公开的系统和方法可通过其它方式实现。例如,所描述的装置实施例仅仅是示例性的。例如,单元划分仅仅是逻辑功能划分且在实际实现中可以是其它划分。例如,可将多个单元或部件合并或集成到另一系统中,或可忽略或不执行部分特征。另外,可通过一些接口实现所显示或论述的互相耦合或直接耦合或通信连接。装置或单元之间的直接耦合或通信连接可通过电子、机械或其它形式实现。
当这些功能以软件功能单元的形式实现以及作为单独产品销售或使用时它们可存储在计算机可读存储介质中。基于这种理解本发明的技术方案基本上或构成现有技术的部分或技术方案的部分可通过软件产品的形式实现。计算机软件产品存储在存储介质中并包括若干指令,用于指示计算机设备(其可为个人计算机、服务器或网络设备)执行本发明实施例中所描述的方法的所有或部分步骤。可以存储程序代码的任何媒体,例如USB盘、可移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random AccessMemory,简称RAM)、磁盘或光学光盘。
除非另有明确规定,否则互相通信的设备不需要连续通信。此外,互相通信的设备可以直接通信或间接地通过一个或多个中介进行通信。
虽然本文描述了单个设备或制品,但显然可以使用不止一个设备/制品(不论它们是否协作)来代替单个设备/制品。类似地,虽然本文描述了不止一个设备或制品(不论它们是否协作),但显然可以使用单个设备/制品来代替不止一个设备或制品,或者可以使用不同数量的设备/制品,而不是所示数量的设备或程序。设备的功能和/或特征可替代性地由没有明确地描述为具有这种功能/特征的一个或多个其它设备来实施。因此,本发明的其它实施例不需要包括设备本身。
尽管已经以特定于结构特征和/或方法的语言描述了用于在同步复制环境中处理存储解决方案中创建快照请求的系统和方法的实现方式,但应理解,所附权利要求不一定限于所描述的特定特征或方法。特定特征或方法是作为采用用于存储数据的复制方法的存储系统中创建快照请求系统的处理方法的实现示例公开的。
Claims (44)
1.一种用于在第一存储设备和第二存储设备之间的通信网络中同步IO事务的方法,其特征在于,所述第二存储设备执行的方法包括:
识别同步期间从所述第一存储设备接收的IO事务对应的第一对象;
识别所述第一对象的执行状态;以及
当所述执行状态指示当前基于从所述第一存储设备接收的后台快照对所述第一对象进行更新时,所述方法包括:
将所述第一对象对应的后台BG IO事务提交至所述第二存储设备的缓存;以及
在完成将所述BGIO事务提交至所述缓存时,向所述缓存的内存块的页面附加更改,其中,附加更改后的所述页面在所述BG IO事务更改的所述缓存的固定内存块范围内。
2.根据权利要求1所述的方法,其特征在于,包括:存储与同步期间接收到的所述IO事务对应的第一页面地址,并基于存储的所述第一页面地址识别页面。
3.根据权利要求2所述的方法,其特征在于,还包括:针对所述接收到的IO事务向所述第一存储设备确认成功。
4.根据权利要求2所述的方法,其特征在于,包括:对所述页面进行引用计数并递增前台页面引用计数器。
5.根据权利要求4所述的方法,其特征在于,包括:在向所述内存块的页面附加更改之前,基于引用计数页面和所述前台页面引用计数器确定所述页面的有效性。
6.根据权利要求5所述的方法,其特征在于,包括:在向所述内存块的页面附加更改时,
释放所述引用计数页面并递减所述前台页面引用计数器。
7.根据权利要求1所述的方法,其特征在于,包括:存储与所述BG IO事务对应的第二页面地址,其中,基于所述第二页面地址识别具有所述缓存的固定内存块范围的大小的BG页面。
8.根据权利要求7所述的方法,其特征在于,包括:对所述BG页面进行引用计数并递增后台页面引用计数器。
9.根据权利要求8所述的方法,其特征在于,在完成将所述BG IO事务提交至所述缓存时,更新所述第一对象的执行状态。
10.根据权利要求9所述的方法,其特征在于,当所述执行状态指示所述第一对象已经更新时,所述方法包括:基于引用计数BG页面和所述后台页面引用计数器确定所述BG页面的有效性,并在确定有效BG页面时,向所述缓存的内存块的页面附加更改。
11.根据权利要求1所述的方法,其特征在于,当所述执行状态指示当前未基于从所述第一存储设备接收的后台快照对所述第一对象进行更新时,所述方法包括:
将同步期间接收的所述IO事务提交至所述第二存储设备的缓存;以及
在完成将所述IO事务提交至所述缓存时,向所述缓存提交所述BG IO事务,其中,所述BG IO事务更改的缓存的固定内存块范围包括所述IO事务更改的内存块的页面更改。
12.根据权利要求11所述的方法,其特征在于,包括:存储与所述BG IO事务对应的第二页面地址,其中,基于存储的所述第二页面地址识别具有固定内存块范围的大小的BG页面。
13.根据权利要求12所述的方法,其特征在于,还包括:针对所述BG IO事务向所述第一存储设备确认成功。
14.根据权利要求12所述的方法,其特征在于,包括:对所述BG页面进行引用计数并递增BG页面引用计数器。
15.根据权利要求14所述的方法,其特征在于,包括:在将所述BG IO提交至所述缓存之前,基于引用计数BG页面和所述后台引用计数器确定所述BG页面的有效性。
16.根据权利要求15所述的方法,其特征在于,包括:在将所述BG IO提交至所述缓存时,释放所述引用计数BG页面并递减所述后台页面引用计数器。
17.根据权利要求11所述的方法,其特征在于,包括:存储与所述IO事务对应的第一页面地址,并基于存储的所述第一页面地址识别页面。
18.根据权利要求17所述的方法,其特征在于,包括:对所述页面进行引用计数并递增前台页面引用计数器。
19.根据权利要求18所述的方法,其特征在于,在完成将所述IO事务提交至所述缓存时,
更新所述第一对象的执行状态。
20.根据权利要求19所述的方法,其特征在于,当所述执行状态指示所述第一对象已经由IO事务更新时,所述方法包括:基于引用计数页面和所述前台页面引用计数器确定所述页面的有效性,并在确定有效页面时将所述BGIO事务提交至所述缓存。
21.根据权利要求1所述的方法,其特征在于,从所述第一存储设备接收的所述后台快照包括一个或多个由对应的对象标识符、对应的更改偏移量和对应的更改长度标识的更改对象。
22.根据权利要求21所述的方法,其特征在于,包括:确定所述第一对象包含在所述一个或多个更改对象中。
23.根据权利要求22所述的方法,其特征在于,包括:确定所述第一对象的对应更改长度位于所述缓存的固定内存块范围内。
24.根据权利要求1所述的方法,其特征在于,所述执行状态从所述第二存储设备维护的执行表中的所述第一对象的标志状态中识别。
25.根据权利要求1所述的方法,其特征在于,将同步期间接收的所述IO事务和所述后台IO事务提交至所述第二存储设备的缓存,而无需由所述第一存储设备的源文件系统获得所述第二存储设备的目标文件系统上的锁。
26.一种用于在第一存储设备和第二存储设备之间的通信网络中同步IO事务的第二存储设备,其特征在于,所述第二存储设备包括:
存储控制器;和
缓存;其中:
所述存储控制器用于:
识别同步期间从所述第一存储设备接收的IO事务对应的第一对象;和
识别所述第一对象的执行状态;以及
当所述执行状态指示当前基于从所述第一存储设备接收的后台快照对所述第一对象进行更新时,所述存储控制器还用于:
将所述第一对象对应的后台BG IO事务提交至所述第二存储设备的缓存;以及
在完成将所述BGIO事务提交至所述缓存时,向所述缓存的内存块的页面附加更改,其中,附加更改后的所述页面在所述BG IO事务更改的所述缓存的固定内存块范围内。
27.根据权利要求26所述的第二存储设备,其特征在于,所述存储控制器用于将与同步期间接收到的所述IO事务对应的第一页面地址存储在执行表中,并基于存储的所述第一页面地址识别页面。
28.根据权利要求27所述的第二存储设备,其特征在于,所述存储控制器用于针对所述接收到的IO事务向所述第一存储设备确认成功。
29.根据权利要求27所述的第二存储设备,其特征在于,所述存储控制器用于对所述页面进行引用计数并递增前台页面引用计数器。
30.根据权利要求29所述的第二存储设备,其特征在于,所述存储控制器用于:在向所述内存块的页面附加更改之前,基于引用计数页面和所述前台页面引用计数器确定所述页面的有效性。
31.根据权利要求30所述的第二存储设备,其特征在于,所述存储控制器用于:在向所述内存块的页面附加更改时,释放所述引用计数页面并递减所述前台页面引用计数器。
32.根据权利要求26所述的第二存储设备,其特征在于,所述存储控制器用于将与所述BG IO事务对应的第二页面地址存储在执行表中,其中,基于所述第二页面地址识别具有所述缓存的固定内存块范围的大小的BG页面。
33.根据权利要求32所述的第二存储设备,其特征在于,所述存储控制器用于对所述BG页面进行引用计数并递增后台页面引用计数器。
34.根据权利要求33所述的第二存储设备,其特征在于,所述存储控制器用于:在完成将所述BGIO事务提交至所述缓存时,更新所述第一对象的执行状态;当所述执行状态指示所述第一对象已经更新时,所述存储控制器用于基于引用计数BG页面和所述后台页面引用计数器确定所述BG页面的有效性,并在确定有效BG页面时,向所述缓存的内存块的页面附加更改。
35.根据权利要求26所述的第二存储设备,其特征在于,当所述执行状态指示当前未基于从所述第一存储设备接收的后台快照对所述第一对象进行更新时,所述存储控制器用于:
将同步期间接收的所述IO事务提交至所述第二存储设备的缓存;以及
在完成将所述IO事务提交至所述缓存时,向所述缓存提交所述BG IO事务,其中,所述BG IO事务更改的缓存的固定内存块范围包括所述IO事务更改的内存块的页面更改。
36.根据权利要求35所述的第二存储设备,其特征在于,所述存储控制器用于将与所述BG IO事务对应的第二页面地址存储在执行表中,其中,基于存储的所述第二页面地址识别具有固定内存块范围的大小的BG页面。
37.根据权利要求36所述的第二存储设备,其特征在于,所述存储控制器用于针对所述BGIO事务向所述第一存储设备确认成功。
38.根据权利要求36所述的第二存储设备,其特征在于,所述存储控制器用于对所述BG页面进行引用计数并递增BG页面引用计数器。
39.根据权利要求38所述的第二存储设备,其特征在于,所述存储控制器用于:在将所述BGIO提交至所述缓存之前,基于引用计数BG页面和所述后台引用计数器确定所述BG页面的有效性。
40.根据权利要求39所述的第二存储设备,其特征在于,所述存储控制器用于:在将所述BGIO提交至所述缓存时,释放引用计数BG页面并递减所述后台页面引用计数器。
41.根据权利要求35所述的第二存储设备,其特征在于,所述存储控制器用于将与所述IO事务对应的第一页面地址存储在执行表中,并基于存储的所述第一页面地址识别页面。
42.根据权利要求41所述的第二存储设备,其特征在于,所述存储控制器用于对所述页面进行引用计数并递增前台页面引用计数器。
43.根据权利要求42所述的第二存储设备,其特征在于,所述存储控制器用于:在完成将所述IO事务提交至所述缓存时,更新所述第一对象的执行状态。
44.根据权利要求43所述的第二存储设备,其特征在于,当所述执行状态指示所述第一对象已经由IO事务更新时,所述第二存储设备用于基于所述引用计数页面和所述前台页面引用计数器确定所述页面的有效性,并在确定有效页面时将所述BGIO事务提交至所述缓存。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IN201831042482 | 2018-11-12 | ||
IN201831042482 | 2018-11-12 | ||
PCT/CN2019/115208 WO2020098518A1 (en) | 2018-11-12 | 2019-11-04 | Method of synchronizing mirrored file systems and storage device thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112955873A CN112955873A (zh) | 2021-06-11 |
CN112955873B true CN112955873B (zh) | 2024-03-26 |
Family
ID=70730336
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980073612.4A Active CN112955873B (zh) | 2018-11-12 | 2019-11-04 | 用于同步镜像文件系统的方法及其存储设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112955873B (zh) |
WO (1) | WO2020098518A1 (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6324654B1 (en) * | 1998-03-30 | 2001-11-27 | Legato Systems, Inc. | Computer network remote data mirroring system |
US8799216B1 (en) * | 2011-05-14 | 2014-08-05 | Pivotal Software, Inc. | Mirror resynchronization of bulk load and append-only tables during online transactions for better repair time to high availability in databases |
US9824095B1 (en) * | 2010-05-03 | 2017-11-21 | Panzura, Inc. | Using overlay metadata in a cloud controller to generate incremental snapshots for a distributed filesystem |
CN110100228A (zh) * | 2017-01-06 | 2019-08-06 | 甲骨文国际公司 | 利用云对象存储的文件系统层次结构的高效增量备份和恢复 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2708386B2 (ja) * | 1994-03-18 | 1998-02-04 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 同時更新及び複写手順を通して重複データベースを回復させる方法及び装置 |
US7779169B2 (en) * | 2003-07-15 | 2010-08-17 | International Business Machines Corporation | System and method for mirroring data |
US20050050142A1 (en) * | 2003-08-28 | 2005-03-03 | Aligo Inc. | Method and framework for transaction synchronization |
US7904427B2 (en) * | 2008-01-11 | 2011-03-08 | Microsoft Corporation | Lazier timestamping in a transaction time database |
US8332433B2 (en) * | 2010-10-18 | 2012-12-11 | Verisign, Inc. | Database synchronization and validation |
US9454590B2 (en) * | 2014-01-28 | 2016-09-27 | International Business Machines Corporation | Predicting validity of data replication prior to actual replication in a transaction processing system |
CN106537364A (zh) * | 2014-07-29 | 2017-03-22 | 慧与发展有限责任合伙企业 | 存储事务 |
US10884869B2 (en) * | 2015-04-16 | 2021-01-05 | Nuodb, Inc. | Backup and restore in a distributed database utilizing consistent database snapshots |
CN106844417B (zh) * | 2016-11-21 | 2020-07-28 | 深信服科技股份有限公司 | 基于文件目录的热迁移方法及装置 |
CN106708662A (zh) * | 2016-12-13 | 2017-05-24 | 上海上讯信息技术股份有限公司 | 一种恢复数据库的方法及设备 |
-
2019
- 2019-11-04 CN CN201980073612.4A patent/CN112955873B/zh active Active
- 2019-11-04 WO PCT/CN2019/115208 patent/WO2020098518A1/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6324654B1 (en) * | 1998-03-30 | 2001-11-27 | Legato Systems, Inc. | Computer network remote data mirroring system |
US9824095B1 (en) * | 2010-05-03 | 2017-11-21 | Panzura, Inc. | Using overlay metadata in a cloud controller to generate incremental snapshots for a distributed filesystem |
US8799216B1 (en) * | 2011-05-14 | 2014-08-05 | Pivotal Software, Inc. | Mirror resynchronization of bulk load and append-only tables during online transactions for better repair time to high availability in databases |
CN110100228A (zh) * | 2017-01-06 | 2019-08-06 | 甲骨文国际公司 | 利用云对象存储的文件系统层次结构的高效增量备份和恢复 |
Also Published As
Publication number | Publication date |
---|---|
WO2020098518A1 (en) | 2020-05-22 |
CN112955873A (zh) | 2021-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10496626B2 (en) | Deduplication in a highly-distributed shared topology with direct-memory-access capable interconnect | |
US10970310B2 (en) | Synchronous replication based cutover engine | |
US10229011B2 (en) | Log-structured distributed storage using a single log sequence number space | |
US10437721B2 (en) | Efficient garbage collection for a log-structured data store | |
US11138061B2 (en) | Method and apparatus to neutralize replication error and retain primary and secondary synchronization during synchronous replication | |
US10565230B2 (en) | Technique for preserving efficiency for replication between clusters of a network | |
KR101914019B1 (ko) | 분산 데이터베이스 시스템들을 위한 고속 장애 복구 | |
KR101771246B1 (ko) | 분산 데이터 시스템들을 위한 전 시스템에 미치는 체크포인트 회피 | |
US10761768B1 (en) | Method to address misaligned holes and writes to end of files while performing quick reconcile operation during synchronous filesystem replication | |
US7685176B2 (en) | Systems and methods of asynchronous data replication | |
US8898112B1 (en) | Write signature command | |
US9916244B1 (en) | Techniques for maintaining cache coherence by atomically processing groups of storage commands | |
US10860239B2 (en) | Fan-out asynchronous replication caching | |
US10705753B2 (en) | Fan-out asynchronous replication logical level caching | |
US9934110B2 (en) | Methods for detecting out-of-order sequencing during journal recovery and devices thereof | |
CN112955873B (zh) | 用于同步镜像文件系统的方法及其存储设备 | |
US11875060B2 (en) | Replication techniques using a replication log | |
CN112805949B (zh) | 处理快照创建请求的方法以及存储设备 | |
CN116868173A (zh) | 降低在恢复操作期间网络延时的影响 | |
US11914571B1 (en) | Optimistic concurrency for a multi-writer database |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |