CN106547759B - 用于选择增量备份方式的方法和装置 - Google Patents

用于选择增量备份方式的方法和装置 Download PDF

Info

Publication number
CN106547759B
CN106547759B CN201510595959.9A CN201510595959A CN106547759B CN 106547759 B CN106547759 B CN 106547759B CN 201510595959 A CN201510595959 A CN 201510595959A CN 106547759 B CN106547759 B CN 106547759B
Authority
CN
China
Prior art keywords
file system
data
backup
incremental backup
snapshot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510595959.9A
Other languages
English (en)
Other versions
CN106547759A (zh
Inventor
陈养峰
钟鑫
齐巍
尹文轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EMC Corp
Original Assignee
EMC IP Holding Co LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EMC IP Holding Co LLC filed Critical EMC IP Holding Co LLC
Priority to CN201510595959.9A priority Critical patent/CN106547759B/zh
Priority to US15/263,930 priority patent/US20170083531A1/en
Publication of CN106547759A publication Critical patent/CN106547759A/zh
Application granted granted Critical
Publication of CN106547759B publication Critical patent/CN106547759B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/128Details of file system snapshots on the file-level, e.g. snapshot creation, administration, deletion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • G06F11/1451Management of the data involved in backup or backup restore by selection of backup contents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/805Real-time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/84Using snapshots, i.e. a logical point-in-time copy of the data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的实施例提供了一种用于选择增量备份方式的方法和装置。该方法包括:选择文件系统的当前快照的一部分;将所选择的部分与所述文件系统的历史快照中的对应部分进行比较,以确定所述文件系统的数据变化率;以及基于所述数据变化率来选择增量备份方式,以对所述文件系统进行备份。根据本发明实施例的技术方案可以以很小的额外开销获得更佳的备份性能。

Description

用于选择增量备份方式的方法和装置
技术领域
本发明的实施例总体涉及增量备份,更具体地,涉及一种用于选择增量备份方式的方法和装置。
背景技术
增量备份(Incremental Backup)是指在针对文件系统进行一次全备份(FullBackup)或上一次增量备份后所进行的一种针对增量文件的备份,每次增量备份只需备份与上一次相比增加或者被修改的文件。这意味着,第一次增量备份的对象是进行全备份后增加的或修改的文件,而第二次增量备份的对象是进行第一次增量备份后增加的或修改的文件。
在启动备份(无论是全备份还是增量备份)之前,通常生成文件系统的快照(snapshot)。文件系统的快照保存启动备份的这一时间点处文件系统的状态,以使得后续的备份不受文件系统在备份过程中可能发生的变化的干扰。备份在文件系统的快照上运行,而不是直接在文件系统上运行。因此,当提及对文件系统的备份时,实际上备份操作是在文件系统的快照上进行。
传统上,采用传统增量备份(Legacy Incremental Backup)方式。在传统增量备份中,需要遍历整个文件系统并逐一地检查每个文件,如果满足备份准则(通常为时间戳),则对文件进行备份。近年来,又出现了快速增量备份(Fast Incremental Backup)方式。在快速增量备份中,检测文件系统的当前快照和启动上一次备份时所生成的快照之间的差异,然后根据所检测的差异来检查文件,如果满足备份准则(通常为时间戳),则对文件进行备份。
因此,如何根据具体应用场景来选择适当的增量备份方式成为一个关注热点。
发明内容
为了解决上述问题,本发明的实施例提出了一种尽可能快地确定文件系统的数据变化率,从而基于该数据变化率来选择增量备份方式,以对文件系统进行备份的技术方案。
根据本发明实施例的第一方面,提供了一种用于选择增量备份方式的方法。该方法包括:选择文件系统的当前快照的一部分;将所选择的部分与所述文件系统的历史快照中的对应部分进行比较,以确定所述文件系统的数据变化率;以及基于所述数据变化率来选择增量备份方式,以对所述文件系统进行备份。
在一个实施例中,选择文件系统的当前快照的一部分包括:随机地选择所述当前快照的所述一部分。
在一个实施例中,随机地选择所述当前快照的所述一部分包括:将所述当前快照中的数据块分成多个群组;以及从所述多个群组中的每个群组中随机地选择预定数目的数据块。
在一个实施例中,选择文件系统的当前快照的一部分包括:将所述当前快照中的数据块分成多个群组;以及从所述多个群组中的每个群组中选择位于预定位置的数据块。
在一个实施例中,基于所述数据变化率来选择增量备份方式,以对所述文件系统进行备份包括:将所述数据变化率与预定阈值进行比较;响应于所述数据变化率大于所述预定阈值,选择传统增量备份方式来对所述文件系统进行备份;以及响应于所述数据变化率小于或等于所述预定阈值,选择快速增量备份方式来对所述文件系统进行备份。
在一个实施例中,所述预定阈值为30%至50%。
在一个实施例中,所选择的部分包括所述当前快照的1%至10%。
根据本发明实施例的第二方面,提供了一种用于选择增量备份方式的装置。该装置包括:选择单元,被配置为选择文件系统的当前快照的一部分;比较单元,被配置为将所选择的部分与所述文件系统的历史快照中的对应部分进行比较,以确定所述文件系统的数据变化率;以及备份单元,被配置为基于所述数据变化率来选择增量备份方式,以对所述文件系统进行备份。
在一个实施例中,所述选择单元被进一步配置为:随机地选择所述当前快照的所述一部分。
在一个实施例中,所述选择单元被进一步配置为:将所述当前快照中的数据块分成多个群组;以及从所述多个群组中的每个群组中随机地选择预定数目的数据块。
在一个实施例中,所述选择单元被进一步配置为:将所述当前快照中的数据块分成多个群组;以及从所述多个群组中的每个群组中选择位于预定位置的数据块。
在一个实施例中,所述备份单元被进一步配置为:将所述数据变化率与预定阈值进行比较;响应于所述数据变化率大于所述预定阈值,选择传统增量备份方式来对所述文件系统进行备份;以及响应于所述数据变化率小于或等于所述预定阈值,选择快速增量备份方式来对所述文件系统进行备份。
在一个实施例中,所述预定阈值为30%至50%。
在一个实施例中,所选择的部分包括所述当前快照的1%至10%。
根据本发明实施例的第三方面,提供了一种计算机程序产品,包括计算机可读介质,所述计算机可读介质承载在其中体现的用于与计算机一起使用的计算机程序代码。所述计算机程序代码包括:用于选择文件系统的当前快照的一部分的代码;用于将所选择的部分与所述文件系统的历史快照中的对应部分进行比较,以确定所述文件系统的数据变化率的代码;以及用于基于所述数据变化率来选择增量备份方式,以对所述文件系统进行备份的代码。
根据本发明实施例的技术方案基于文件系统的数据变化率来选择适当的增量备份方式,可以克服快速增量备份方式和传统增量备份方式在不同场景(例如不同的文件系统数据变化率)下各自的局限性,将有利于获得更佳的性能。此外,本发明的实施例提供了一种尽可能快地确定文件系统的数据变化率的方式,从而可以以很小的额外开销获得更加的备份性能。
附图说明
结合附图并参考以下详细说明,本发明各实施方式的特征、优点及其他方面将变得更加明显,在此以示例性而非限制性的方式示出了本发明的若干实施方式。在附图中:
图1示出了根据本发明一个实施例的用于选择增量备份方式的方法的流程图;
图2以曲线图的方式示出了传统增量备份方式和快速增量备份方式之间的比较;
图3以曲线图的方式示出了根据本发明的智能增量备份方式、传统增量备份方式和快速增量备份方式之间的比较;
图4示出了根据本发明实施例的用于选择增量备份方式的装置的框图;以及
图5示出了适于用来实现本发明实施例的示例性计算机系统/服务器的框图。
具体实施方式
下面将参考附图中示出的若干示例实施例来描述本发明的原理。应当理解,描述这些实施例仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。
图1示出了根据本发明一个实施例的用于选择增量备份方式的方法100的流程图。如图1所示,在步骤S101,选择文件系统的当前快照的一部分。接下来,在步骤S102,将所选择的部分与该文件系统的历史快照中的对应部分进行比较,以确定该文件系统的数据变化率。在本文中,“文件系统的当前快照”指代在针对文件系统启动当前备份之前所生成的文件系统的快照,而“文件系统的历史快照”指代在针对该文件系统启动当前备份的上一次备份之前所生成的该文件系统的快照。
通常,计算文件系统的数据变化率是一项耗时的操作。下面的表1示出了针对包含1,000,000个文件并且每个文件的大小为32KB的文件系统的测试示例。
表1
备份类型 时间 备份文件数目 数据大小
全备份 781 0:13:01 1,040,001 33GB
传统增量备份 330 0:05:30 10,411 330MB
从表1的第1行可以看出,对上述文件系统采用全备份时所花费的时间为781秒。然而,从表1的第2行可以看出,当数据变化量为整个文件系统的1%时采用传统增量备份时所花费的时间高达330秒。这330秒可以分为两个部分:文件系统的遍历时间和实际数据IO(输入输出)时间。一般地,文件系统或文件系统的快照包含两个部分:索引节点(inode)区域和数据区域。为了遍历文件系统或获得快照之间的差异,仅需关注索引节点区域即可,因为索引节点区域包含用于增量准则过滤的文件的元数据,而数据区域用于随后针对备份的实际IO。因此,当谈论遍历文件系统或比较快照之间的差异时,事实上指代的是针对索引节点区域的遍历或比较。
在表1所示的示例中,由于数据大小仅为330MB,因此实际数据IO时间仅需采用全备份时所花费的时间(781秒)的约1%(约8秒),而剩余的时间则为文件系统的遍历时间,约300秒。
此外,如果文件系统包含例如2千万个文件,则文件系统的遍历时间将会是约6000秒。因此,通过首先遍历整个文件系统或者比较文件系统的当前快照和历史快照之间的全部差异来计算数据变化率,然后再选择适当增量备份方式是不可行的。
因此,在本发明的实施例中,仅选择文件系统的当前快照的一部分,将当前快照的所述一部分与文件系统的历史快照中的对应部分进行比较,以计算当前快照的这一部分相对于历史快照中的对应部分的数据变化率,并且将所计算的数据变化率作为文件系统的数据变化率。由此,本发明的实施例提供了一种尽可能快地确定文件系统的数据变化率的方式。
在一个实施例中,选择文件系统的当前快照的一部分包括:将所述当前快照中的数据块分成多个群组;以及从所述多个群组中的每个群组中选择位于预定位置的数据块。由于从每个群组中选择位于预定位置的数据块,因此在下文中该选择方式也被称作“均匀抽样”。此外,在下文中,为了便于描述,“选择文件系统的当前快照的一部分”、以及“将所选择的部分与所述文件系统的历史快照中的对应部分进行比较,以确定所述文件系统的数据变化率”的操作(即,图1中的步骤S101和步骤S102)也被称作“抽样调查”操作,并且将当前快照中所选择的部分与当前快照之间的比率、或者所选择的数据块的数目与每个群组中的数据块的总数目之间的比率称作“抽样率”。
在一个实施例中,所述抽样率为1%至10%。
作为一个示例,采用1%的抽样率。具体而言,可以将当前快照中的数据块分成多个群组并且每个群组包含100个数据块,然后从第一个群组中选择第一个数据块。应当理解,所划分的群组的数目取决于文件系统的大小。之后,将第一个群组中的该第一个数据块与该文件系统的历史快照中的对应数据块进行比较,以计算第一个群组中的该第一个数据块与历史快照中的对应数据块之间的数据变化率(简称第一数据变化率)。接下来,从第二个群组中也选择第一个数据块。之后,将第二个群组中的该第一个数据块与该文件系统的历史快照中的对应数据块进行比较,以计算第二个群组中的该第一个数据块与历史快照中的对应数据块之间的数据变化率(简称第二数据变化率)。以此类推,直至计算出全部群组中的第一个数据块与历史快照中的对应数据块之间的数据变化率。随后,计算第一数据变化率、第二数据变化率......以及最后一个数据变化率的均值,并且将所计算的均值作为文件系统的数据变化率。
此外,可以理解,根据本发明的实施例,针对每个群组中未被选择的数据块不执行任何操作。
应当理解,以上仅仅是出于说明之目的而描述了在抽样率为1%时从每个群组中选择第一个数据块的示例。事实上,可以从每个群组中选择任意适当位置的数据块,例如第二个、第三个数据块等等。本发明的范围在此方面不受限制。
类似地,可以采用2%的抽样率。在此情况下,例如可以从第一个群组中选择前两个数据块,之后将第一个群组中的这前两个数据块与该文件系统的历史快照中的对应数据块进行比较。
在上述“均匀抽样”方式中,由于从每个群组中选择位于预定位置的数据块,因此可能会由于所选择的数据块恰好是数据变化率最高或最低的数据块,而导致所得到的文件系统的数据变化率明显高于或低于真实值。
为了解决这一问题,本发明的实施例还提出了一种“随机抽样”方式。在随机抽样方式,选择文件系统的当前快照的一部分包括:随机地选择所述当前快照的所述一部分。
在一个实施例中,随机地选择所述当前快照的所述一部分包括:将所述当前快照中的数据块分成多个群组;以及从所述多个群组中的每个群组中随机地选择预定数目的数据块。
与“均匀抽样”方式类似,在随机抽样方式中可以采用1%至10%的抽样率。
作为一个示例,采用1%的抽样率。具体而言,与“均匀抽样”方式类似,可以将当前快照中的数据块分成多个群组并且每个群组包含100个数据块,然后从第一个群组中随机选择一个数据块。之后,将第一个群组中的该随机选择的数据块与该文件系统的历史快照中的对应数据块进行比较,以计算第一个群组中的该随机选择的数据块与历史快照中的对应数据块之间的数据变化率(简称第一数据变化率)。接下来,从第二个群组中也随机选择一个数据块。之后,将第二个群组中的该随机选择的数据块与该文件系统的历史快照中的对应数据块进行比较,以计算第二个群组中的该随机选择的数据块与历史快照中的对应数据块之间的数据变化率(简称第二数据变化率)。以此类推,直至计算出全部群组中的随机选择的数据块与历史快照中的对应数据块之间的数据变化率。随后,计算第一数据变化率、第二数据变化率......以及最后一个数据变化率的均值,并且将所计算的均值作为文件系统的数据变化率。
下面的表2示出了针对包含1,000,000个文件的文件系统采用“随机抽样”方式进行测试的测试结果。在测试中,文件系统的真实数据变化率为1%到99%,并且抽样率为1%到10%。
具体地,表2中的第1列(“增量比率”)表示文件系统中实际有多少文件发生了变化,即文件系统的真实数据变化率,而第2至11列表示采用“随机抽样”方式确定的文件系统的数据变化率(其中抽样率为1%到10%)。分别计算第2至11列与第1列之间的差值,可以得到采用“随机抽样”方式确定的文件系统的数据变化率与文件系统的真实数据变化率之间的误差,其中表2中的最后一列示出了所得到的最大正误差,而倒数第2列示出了所得到的最大负误差。此外,可以分别确定所得到的100个最大正误差的最大值和100个最大负误差的最大值,如表2中的最后一行所示。根据表2中的最后一行可以确定,采用“随机抽样”方式确定的文件系统的数据变化率为文件系统的真实数据变化率的96.93%到102.6%。
此外,从表2中可见,在“随机抽样”方式中,尽管只对很少量数据进行抽样(抽样率为1%到10%),但是可以以较高的准确率确定文件系统的数据变化率。
Figure BDA0000805270440000091
Figure BDA0000805270440000101
Figure BDA0000805270440000111
Figure BDA0000805270440000121
继续参照图1,在步骤S103,基于所确定的数据变化率来选择增量备份方式,以对文件系统进行备份。
在一个实施例中,基于所确定的数据变化率来选择增量备份方式,以对文件系统进行备份包括:将所述数据变化率与预定阈值进行比较;响应于所述数据变化率大于或等于所述预定阈值,选择传统增量备份方式来对所述文件系统进行备份;以及响应于所述数据变化率小于所述预定阈值,选择快速增量备份方式来对所述文件系统进行备份。
在一个实施例中,所述预定阈值为30%至50%。
下面的表3示出了针对包含1,000,000个文件并且每个文件的大小为32KB的文件系统、分别采用传统增量备份方式和快速增量备份方式进行测试而得到的测试结果。
表3
Figure BDA0000805270440000131
Figure BDA0000805270440000141
在测试中,首先针对文件系统执行全备份,从而获得执行全备份所花费的时间,如表3的第2行所示。然后,改变文件系统中一定数目的文件,数据变化率为1%到100%。例如针对1%的数据变化率,实际改变约10,000个文件,如表3的第3行倒数第2列所示。
从表3中可以看出,随着文件系统的数据变化率增大,快速增量备份的速度变慢。当文件系统的数据变化率小于或等于40%,快速增量备份所花费的时间少于传统增量备份。而当文件系统的数据变化率超过40%、例如达到45%时,情况发生反转,快速增量备份所花费的时间多于传统增量备份。
与表3相对应的,图2以曲线图的方式示出了传统增量备份方式和快速增量备份方式之间的比较。在图2中,横坐标表示文件系统的数据变化率,纵坐标表示备份所花费的时间。
通过图2可知,如果文件系统包含大量文件(例如10,000个文件),并且自上一次备份以来仅少量文件发生变化(例如被增加或者被修改),则快速增量备份会呈现出更佳的性能,因为快速增量备份无需遍历整个文件系统。然而,如果文件系统包含大量文件,并且自上一次备份以来大量文件发生变化,则传统增量备份会呈现出更佳的性能。具体地,从图2中可以看出,如果文件系统的数据变化率小于或等于预定阈值(例如40%),快速增量备份方式的性能优于传统增量备份;而如果文件系统的数据变化率大于该预定阈值(例如40%)时,传统增量备份方式的性能优于快速增量备份。另外,可以看出,对于传统增量备份方式而言,无论数据变化率如何,启动时间都较长,但是总的备份时间与数据变化率是线性相关的。而对于快速增量备份方式而言,启动时间较短,并且总的备份时间的增速较快。
从表3和图2中可以看出,快速增量备份方式和传统增量备份方式在不同场景(例如不同的文件系统数据变化率)下具有各自的局限性。因此,基于文件系统的数据变化率来选择适当的增量备份方式,将有利于获得更佳的性能。在本文中,根据本发明实施例的增量备份方式也被称作“智能增量备份”方式。
此外,通过表3的示例还可以计算执行“抽样调查”操作所花费的时间(以下简称“抽样调查时间”)。具体地,对于包含1,000,000个文件的文件系统而言,如果数据变化率为1%,则总备份时间约330秒,其中包含文件系统的遍历时间和实际数据IO时间。因此,文件系统的遍历时间应当小于330秒。为了便于计算,采用近似值300秒作为文件系统的遍历时间。此外,假定抽样率为5%,则抽样调查时间可以计算如下:
抽样调查时间=针对一个快照的遍历时间×抽样率×需要遍历的快照的数目
=300×5%×2
=30(秒)
可见,抽样调查时间需要约30秒。
因而,可以对表3进行更新,在其中增加一列来描述“智能增量备份”方式所需的时间,以便对“智能增量备份”、传统增量备份、以及快速增量备份进行比较。由此,更新后的表3如下面的表4所示。
表4
Figure BDA0000805270440000161
从表4可以看出,例如在数据变化率为40%时,采用根据本发明的智能增量备份方式(即在抽样调查基础上进行快速增量备份)所需的备份时间为536秒,该时间仅比现有的快速增量备份方式所需的备份时间(如表4所示的506秒)长30秒(抽样调查时间)。可见,根据本发明的智能增量备份方式以很小的额外开销便可以获得更加的备份性能。
与表4相对应的,图3以曲线图的方式示出了根据本发明的智能增量备份方式、传统增量备份方式和快速增量备份方式之间的比较。在图3中,横坐标表示文件系统的数据变化率,纵坐标表示备份所花费的时间。从表4可以看出,根据本发明的智能增量备份方式相比于传统增量备份方式和快速增量备份方式能够获得更加的备份性能。
此外,为了进一步对现有的快速增量备份方式和根据本发明的智能增量备份方式进行比较,本发明的实施例还提供了以下伪码的示例。
以下是针对现有的快速增量备份方式的伪码的示例。
Figure BDA0000805270440000171
Figure BDA0000805270440000181
从以上伪码的第4-9行可以看出,增量备份方式为全局定义项,其要么被定义为快速增量备份,要么被定义为传统增量备份。而且,一旦进行了定义,则总是运行所定义为增量备份方式。显然,这种方法在很多情况下不够灵活。
以下是针对本发明的智能增量备份方式的伪码的示例。
Figure BDA0000805270440000182
Figure BDA0000805270440000191
另外,本发明的实施例还提供了一种用于选择增量备份方式的装置。图4示出了根据本发明实施例的用于选择增量备份方式的装置400的框图。如图4所示,装置400包括:选择单元401,被配置为选择文件系统的当前快照的一部分;比较单元402,被配置为将所选择的部分与所述文件系统的历史快照中的对应部分进行比较,以确定所述文件系统的数据变化率;以及备份单元403,被配置为基于所述数据变化率来选择增量备份方式,以对所述文件系统进行备份。
在一个实施例中,选择单元401被进一步配置为:随机地选择所述当前快照的所述一部分。
在一个实施例中,选择单元401被进一步配置为:将所述当前快照中的数据块分成多个群组;以及从所述多个群组中的每个群组中随机地选择预定数目的数据块。
在一个实施例中,选择单元401被进一步配置为:将所述当前快照中的数据块分成多个群组;以及从所述多个群组中的每个群组中选择位于预定位置的数据块。
在一个实施例中,备份单元403被进一步配置为:将所述数据变化率与预定阈值进行比较;响应于所述数据变化率大于所述预定阈值,选择传统增量备份方式来对所述文件系统进行备份;以及响应于所述数据变化率小于或等于所述预定阈值,选择快速增量备份方式来对所述文件系统进行备份。
在一个实施例中,所述预定阈值为30%至50%。
在一个实施例中,所选择的部分包括所述当前快照的1%至10%。
图5示出了适于用来实现本发明实施例的示例性计算机系统/服务器12的框图。图5所示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其他可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其他光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、—个或者多个应用程序、其他程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其他计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机系统/服务器12的其他模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其他硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
特别地,根据本发明的实施例,上文参考图1描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行方法100的程序代码。
一般而言,本发明的各种示例实施例可以在硬件或专用电路、软件、逻辑,或其任何组合中实施。某些方面可以在硬件中实施,而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本发明的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时,将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备,或其某些组合中实施。
而且,流程图中的各框可以被看作是方法步骤,和/或计算机程序代码的操作生成的操作,和/或理解为执行相关功能的多个耦合的逻辑电路元件。例如,本发明的实施例包括计算机程序产品,该计算机程序产品包括有形地实现在机器可读介质上的计算机程序,该计算机程序包含被配置为实现上文描述方法的程序代码。
在公开的上下文内,机器可读介质可以是包含或存储用于或有关于指令执行系统、装置或设备的程序的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以包括但不限于电子的、磁的、光学的、电磁的、红外的或半导体系统、装置或设备,或其任意合适的组合。机器可读存储介质的更详细示例包括带有一根或多根导线的电气连接、便携式计算机磁盘、硬盘、随机存储存取器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光存储设备、磁存储设备,或其任意合适的组合。
用于实现本发明的方法的计算机程序代码可以用一种或多种编程语言编写。这些计算机程序代码可以提供给通用计算机、专用计算机或其他可编程的数据处理装置的处理器,使得程序代码在被计算机或其他可编程的数据处理装置执行的时候,引起在流程图和/或框图中规定的功能/操作被实施。程序代码可以完全在计算机上、部分在计算机上、作为独立的软件包、部分在计算机上且部分在远程计算机上或完全在远程计算机或服务器上执行。
另外,尽管操作以特定顺序被描绘,但这并不应该理解为要求此类操作以示出的特定顺序或以相继顺序完成,或者执行所有图示的操作以获取期望结果。在某些情况下,多任务或并行处理会是有益的。同样地,尽管上述讨论包含了某些特定的实施细节,但这并不应解释为限制任何发明或权利要求的范围,而应解释为对可以针对特定发明的特定实施例的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可以整合实施在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以分离地在多个实施例或在任意合适的子组合中实施。
针对前述本发明的示例实施例的各种修改、改变将在连同附图查看前述描述时对相关技术领域的技术人员变得明显。任何及所有修改将仍落入非限制的和本发明的示例实施例范围。此外,前述说明书和附图存在启发的益处,涉及本发明的这些实施例的技术领域的技术人员将会想到此处阐明的本发明的其他实施例。
将会理解,本法明的实施例不限于公开的特定实施例,并且修改和其他实施例都应包含于所附的权利要求范围内。尽管此处使用了特定的术语,但是它们仅在通用和描述的意义上使用,而并不用于限制目的。

Claims (12)

1.一种执行文件系统的智能增量备份的方法,包括:
执行抽样调查操作,包括:
选择所述文件系统的当前快照的一部分;
将所述文件系统的所述当前快照的所选择的部分与所述文件系统的历史快照中的一部分进行比较,以确定所述文件系统的数据变化率,所述历史快照中的所述部分对应于所述当前快照的所选择的所述一部分;
使已执行的抽样调查操作确定所述文件系统的所述数据变化率,基于所述数据变化率分别(i)大于预定阈值、以及(ii)小于或等于所述预定阈值,在选择以下各项中的一项之间进行交替(i)传统增量备份方式、以及(ii)快速增量备份方式;以及
执行所选择的所述传统备份方式和所述快速备份方式中的一种备份方式,以对所述文件系统进行备份。
2.根据权利要求1所述的方法,其中选择文件系统的当前快照的一部分包括:
随机地选择所述当前快照的所述一部分。
3.根据权利要求2所述的方法,其中随机地选择所述当前快照的所述一部分包括:
将所述当前快照中的数据块分成多个群组;以及
从所述多个群组中的每个群组中随机地选择预定数目的数据块。
4.根据权利要求1所述的方法,其中选择文件系统的当前快照的一部分包括:
将所述当前快照中的数据块分成多个群组;以及
从所述多个群组中的每个群组中选择位于预定位置的数据块。
5.根据权利要求1所述的方法,其中所述预定阈值为30%至50%。
6.根据权利要求1至5中任一项所述的方法,其中所选择的部分包括所述当前快照的1%至10%。
7.一种用于执行文件系统的智能增量备份的装置,包括:
存储器;以及
处理器,被配置为从所述存储器中执行程序指令,以:
执行抽样调查操作,包括:
选择所述文件系统的当前快照的一部分;
将所述文件系统的所述当前快照的所选择的部分与所述文件系统的历史快照中的一部分进行比较,以确定所述文件系统的数据变化率,所述历史快照中的所述部分对应于所述当前快照的所选择的所述一部分;以及
使已执行的抽样调查操作确定所述文件系统的所述数据变化率,基于所述数据变化率分别(i)大于预定阈值、以及(ii)小于或等于所述预定阈值,在选择以下各项中的一项之间进行交替(i)传统增量备份方式、以及(ii)快速增量备份方式;以及
执行所选择的所述传统备份方式和所述快速备份方式中的一种备份方式,以对所述文件系统进行备份。
8.根据权利要求7所述的装置,其中所述处理器被进一步配置为从所述存储器中执行程序指令,以随机地选择所述当前快照的所述一部分。
9.根据权利要求8所述的装置,其中所述处理器被进一步配置为从所述存储器中执行程序指令,以:
将所述当前快照中的数据块分成多个群组;以及
从所述多个群组中的每个群组中随机地选择预定数目的数据块。
10.根据权利要求7所述的装置,其中所述处理器被进一步配置为从所述存储器中执行程序指令,以:
将所述当前快照中的数据块分成多个群组;以及
从所述多个群组中的每个群组中选择位于预定位置的数据块。
11.根据权利要求7所述的装置,其中所述预定阈值为30%至50%。
12.根据权利要求7至11中任一项所述的装置,其中所选择的部分包括所述当前快照的1%至10%。
CN201510595959.9A 2015-09-17 2015-09-17 用于选择增量备份方式的方法和装置 Active CN106547759B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510595959.9A CN106547759B (zh) 2015-09-17 2015-09-17 用于选择增量备份方式的方法和装置
US15/263,930 US20170083531A1 (en) 2015-09-17 2016-09-13 Selecting an incremental backup approach

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510595959.9A CN106547759B (zh) 2015-09-17 2015-09-17 用于选择增量备份方式的方法和装置

Publications (2)

Publication Number Publication Date
CN106547759A CN106547759A (zh) 2017-03-29
CN106547759B true CN106547759B (zh) 2020-05-22

Family

ID=58282470

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510595959.9A Active CN106547759B (zh) 2015-09-17 2015-09-17 用于选择增量备份方式的方法和装置

Country Status (2)

Country Link
US (1) US20170083531A1 (zh)
CN (1) CN106547759B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108573049B (zh) * 2018-04-20 2022-03-25 联想(北京)有限公司 数据处理方法和分布式存储装置
CN109491961B (zh) * 2018-10-22 2022-02-18 郑州云海信息技术有限公司 一种文件系统快照的方法及快照设备
CN112306746A (zh) * 2019-07-30 2021-02-02 伊姆西Ip控股有限责任公司 在应用环境中管理快照的方法、设备和计算机程序产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007002397A3 (en) * 2005-06-24 2009-04-16 Syncsort Inc System and method for high performance enterprise data protection
CN102193844A (zh) * 2010-03-08 2011-09-21 微软公司 基于部分块的备份
WO2014133491A1 (en) * 2013-02-27 2014-09-04 Hewlett-Packard Development Company, L.P. Selecting a backup type based on changed data

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2560395C (en) * 2004-04-02 2014-06-17 Matsushita Electric Industrial Co., Ltd. Unauthorized contents detection system
US20070211674A1 (en) * 2006-03-09 2007-09-13 Ragnar Karlberg Lars J Auto continuation/discontinuation of data download and upload when entering/leaving a network
US8145960B2 (en) * 2006-07-20 2012-03-27 Arm Limited Storage of data in data stores having some faulty storage locations
US8260750B1 (en) * 2009-03-16 2012-09-04 Quest Software, Inc. Intelligent backup escalation system
US8370302B2 (en) * 2009-06-02 2013-02-05 Hitachi, Ltd. Method and apparatus for block based volume backup
US9632875B2 (en) * 2010-10-06 2017-04-25 International Business Machines Corporation Automated and self-adjusting data protection driven by business and data activity events
US20130031216A1 (en) * 2011-07-29 2013-01-31 Myxer, Inc. Systems and methods for generation of customized media playlists
CN103970585B (zh) * 2013-01-31 2017-10-27 新华三技术有限公司 创建虚拟机的方法及装置
US9740668B1 (en) * 2013-03-14 2017-08-22 Amazon Technologies, Inc. Plotting webpage loading speeds and altering webpages and a service based on latency and pixel density
US9864658B1 (en) * 2014-12-01 2018-01-09 Vce Company, Llc Automation of deduplication storage capacity sizing and trending analysis
US9547560B1 (en) * 2015-06-26 2017-01-17 Amazon Technologies, Inc. Amortized snapshots

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007002397A3 (en) * 2005-06-24 2009-04-16 Syncsort Inc System and method for high performance enterprise data protection
CN102193844A (zh) * 2010-03-08 2011-09-21 微软公司 基于部分块的备份
WO2014133491A1 (en) * 2013-02-27 2014-09-04 Hewlett-Packard Development Company, L.P. Selecting a backup type based on changed data

Also Published As

Publication number Publication date
CN106547759A (zh) 2017-03-29
US20170083531A1 (en) 2017-03-23

Similar Documents

Publication Publication Date Title
US8769504B2 (en) Method and apparatus for dynamically instrumenting a program
US20160378616A1 (en) Backup performance using data allocation optimization
US9727411B2 (en) Method and processor for writing and error tracking in a log subsystem of a file system
CN107577697B (zh) 一种数据处理方法、装置及设备
US10209891B2 (en) Methods and systems for improving flash memory flushing
CN106547759B (zh) 用于选择增量备份方式的方法和装置
US10649672B1 (en) Offloading device maintenance to an external processor in low-latency, non-volatile memory
US9547456B2 (en) Method and apparatus for efficient data copying and data migration
US8855428B2 (en) Computing device and boundary line graph checking method
CN113625973B (zh) 数据写入方法、装置、电子设备及计算机可读存储介质
JP2019215847A (ja) バッファオーバーフローの低減
CN113408070B (zh) 发动机参数的确定方法、装置、设备及存储介质
CN111104438A (zh) 时间序列的周期性确定方法、装置及电子设备
CN112862017B (zh) 点云数据的标注方法、装置、设备和介质
CN107562608B (zh) 资源指标重要度评估方法及装置
US20150278299A1 (en) External merge sort method and device, and distributed processing device for external merge sort
US10387268B2 (en) Fast copy using file system block mappings
CN106919340B (zh) 提高raid读取性能的系统及方法
CN107368281B (zh) 一种数据处理方法及装置
CN115828244A (zh) 一种内存泄露检测方法、装置及相关设备
CN105243011A (zh) 内存泄露定位方法及装置
CN106202262B (zh) 一种信息处理方法及电子设备
CN109271538A (zh) 一种图片存储方法及相关设备
CN115269289A (zh) 一种慢盘检测方法、装置、电子设备及存储介质
CN109358815B (zh) 一种nand闪存数据管理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200416

Address after: Massachusetts, USA

Applicant after: EMC IP Holding Company LLC

Address before: Ma Sazhusaizhou

Applicant before: EMC Corp.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant