CN116917872A - 用于项目的多源恢复的设备和方法 - Google Patents

用于项目的多源恢复的设备和方法 Download PDF

Info

Publication number
CN116917872A
CN116917872A CN202180094479.8A CN202180094479A CN116917872A CN 116917872 A CN116917872 A CN 116917872A CN 202180094479 A CN202180094479 A CN 202180094479A CN 116917872 A CN116917872 A CN 116917872A
Authority
CN
China
Prior art keywords
item
backup
particular item
restore
data storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180094479.8A
Other languages
English (en)
Inventor
施莫利克·约苏布
阿萨夫·纳塔逊
阿萨夫·耶格尔
迈克尔·古特曼
沙哈尔·萨尔兹曼
大卫·西格尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN116917872A publication Critical patent/CN116917872A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1469Backup restoration techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • G06F11/1451Management of the data involved in backup or backup restore by selection of backup contents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1464Management of the backup or restore process for networked environments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/128Details of file system snapshots on the file-level, e.g. snapshot creation, administration, deletion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/815Virtual
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/84Using snapshots, i.e. a logical point-in-time copy of the data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供了一种计算机实现的在网络数据存储系统(200、310)中备份和恢复的方法。所述方法包括以预定义的时间间隔生成一系列一个或多个虚拟快照,对于所述网络数据存储系统中的每个项目,所述虚拟快照包括:(i)项目数据的强哈希,(ii)与所述项目相关的一个或多个元数据元素。所述方法包括,响应于恢复特定项目的请求:(i)搜索所述一系列虚拟快照以查找所述特定项目的所有可用来源,(ii)识别所述特定项目的最佳来源,(iii)从所述识别的最佳来源恢复所述特定项目的项目数据。

Description

用于项目的多源恢复的设备和方法
技术领域
本公开大体上涉及一种计算机实现的在网络数据存储系统中备份和恢复的方法,更具体地,本公开涉及一种用于网络数据存储系统的备份和恢复设备。此外,本公开还涉及网络数据存储系统,其包括用于在网络数据存储系统中执行备份和恢复的备份和恢复设备。
背景技术
辅助存储器是非易失性的长期存储器。辅助存储器用于无限期地保存程序和数据。如果没有辅助存储器,当计算设备关闭时,所有程序和数据都会丢失。对于辅助存储器,商业和企业通常备份到磁带或以附网存储(network-attached storage,NAS)或存储区域网络(storage area network,SAN)设备的形式备份到磁盘。商业和企业也可以选择将服务器备份到云数据中心,作为辅助存储器站点。文件、文档、文件夹和简单存储服务(S3)对象等“项目”通常分布在位于不同主机、主机类型(例如,虚拟机软件、Hyper-V等)和不同数据中心上的不同物理机和虚拟机中。整个企业的项目之间可能存在许多重复的项目和相似之处(即只有部分数据相同)。
根据辅助存储器的可扩展性和数据中心的大小,可能需要一个以上辅助存储器群集来保护一个数据中心。在已知的解决方案中使用不同的备份(例如,增量块级备份、文件级备份和重复数据删除备份),这些备份可以用于存储所备份的数据。增量块级备份分析文件或文档,以确定自上次备份以来哪些部分已被修改。然后,增量块级备份仅复制已修改的特定数据块,而不是复制整个文件。文件级备份使用户能够将单个文件和文件夹恢复到暂存区域。重复数据删除备份采用重复数据删除技术,以在备份期间消除重复数据的重复副本。重复数据删除备份会减少备份存储容量,但仅针对特定数据中心或部分数据中心,具体取决于第二存储群集的保护范围。此外,所有这些备份都是经压缩或加密的。
当计算设备中的项目被损坏时(例如,由于勒索软件或病毒或任何其它原因)时,用户通常会寻找一种方法将项目恢复到该项目之前的未损坏状态。有时,无法恢复损坏的项目。通常,用户并不总是对计算设备的项目进行备份,并且即使他们进行了备份,备份也可能不包括计算设备的所有项目。因此,可能始终存在损坏的项目,损坏的项目没有备份。即使损坏项目的备份可用,该备份也可能无用,因为损坏的项目的备份可能太旧并且不相关。因此,用户可能会因损坏而丢失大量重要数据。
在已知的解决方案中,为了在数据损坏的情况下最大限度地减少数据丢失,用户可以以较小的间隔创建备份。如果备份之间的间隔较小,则重要数据丢失的可能性就会较低。或者,用户还安装防病毒或反勒索软件,以最大限度地降低项目被感染的风险,但风险始终存在。
因此,需要在已知的解决方案中解决上述技术问题/缺点,以备份项目并在损坏时恢复项目。
发明内容
本公开的目的是提供一种计算机实现的在网络数据存储系统中备份和恢复的方法、一种用于网络数据存储系统的备份和恢复设备以及网络数据存储系统,该网络数据存储系统包括用于在网络数据存储系统中执行备份和恢复的备份和恢复设备,同时避免现有技术方法的一个或多个缺点。
该目的通过独立权利要求的特征来实现。进一步地,实现方式在从属权利要求、说明书和附图中是显而易见的。
本公开提供了一种计算机实现的在网络数据存储系统中备份和恢复的方法、一种用于网络数据存储系统的备份和恢复设备以及网络数据存储系统,该网络数据存储系统包括用于在网络数据存储系统中执行备份和恢复的备份和恢复设备。
根据第一方面,提供了一种计算机实现的在网络数据存储系统中备份和恢复的方法。所述方法包括以预定义的时间间隔生成一系列一个或多个虚拟快照,对于所述网络数据存储系统中的每个项目,所述虚拟快照包括:(i)项目数据的强哈希,(ii)与所述项目相关的一个或多个元数据元素。所述方法包括,响应于恢复特定项目的请求:(i)搜索所述一系列虚拟快照以查找所述特定项目的所有可用来源,(ii)识别所述特定项目的最佳来源,(iii)从所述识别的最佳来源恢复所述特定项目的项目数据。
该方法使用户能够有效地恢复被损坏且未备份的项目。如果该项目在共享时未损坏,则该方法可随时恢复共享的项目。该方法基于来源的带宽和来源的距离来优化用于恢复项目的来源。该方法能够基于网络数据存储系统中的每个项目的文件类型以预定义的时间间隔生成一系列一个或多个虚拟快照。例如,对于文本文档文件类型,该方法可以在每次更改时创建虚拟快照,而对于其它文件类型,该方法可以每天创建一个或多个虚拟快照。对于基于文件类型的间隔如果由项目(例如,系统文件)损坏引起的潜在损坏更大,则该方法可以使用户/管理员能够将用于生成一个或多个虚拟快照的预定义的时间间隔配置为更小,以便最大限度地减少数据丢失。
可选地,搜索所述特定项目的所有可用来源包括防止删除所述一系列虚拟快照中的任何一个虚拟快照。可选地,搜索所述特定项目的所有可用来源包括防止删除所述特定项目的任何可用来源。
预定义的间隔可以是基于网络数据存储系统中的每个项目的文件类型的。
可选地,所述一个或多个元数据元素包括每个项目的访问延迟,并且识别所述特定项目的最佳来源是基于所述访问延迟的。所述一个或多个元数据元素可以包括每个项目的访问可用性,并且识别所述特定项目的最佳来源是基于所述访问可用性的。所述一个或多个元数据元素可以包括每个项目的存储可靠性,并且识别所述特定项目的最佳来源是基于所述存储可靠性的。所述一个或多个元数据元素可以包括每个项目的上次更新时间,并且识别所述特定项目的最佳来源是基于所述上次更新时间的。所述一个或多个元数据元素可以包括对每个项目所做的更改次数,并且识别所述特定项目的最佳来源是基于所述更改次数的。
该方法有助于为要恢复的项目找到“最佳匹配”(即,最接近项目损坏之前该项目的原始版本的项目版本)。该方法使用户能够基于访问延迟、访问可用性、存储可靠性、上次更新时间和更改次数自定义搜索顺序。
可选地,所述方法还包括响应于检测到所述特定项目的损坏,生成恢复所述特定项目的请求。可选地,恢复所述特定项目的项目数据包括通过计算所述项目数据的强哈希并将所述计算的强哈希与所述相应虚拟快照内的强哈希进行比较,来验证所述项目数据。
根据第二方面,提供了一种用于网络数据存储系统的备份和恢复设备。该备份和恢复设备包括备份模块和恢复模块。所述备份模块用于以预定义的时间间隔生成一系列一个或多个虚拟快照,其中,对于所述网络数据存储系统中的每个项目,所述虚拟快照包括:(i)项目数据的强哈希,(ii)与所述项目相关的一个或多个元数据元素。所述恢复模块用于响应于恢复特定项目的请求:(i)搜索所述一系列虚拟快照以查找所述特定项目的所有可用来源,(ii)识别所述特定项目的最佳来源,(iii)从所述识别的最佳来源恢复所述特定项目的项目数据。
该备份和恢复设备使用户能够有效地恢复被损坏且未备份的项目。如果该项目在共享时未损坏,则该备份和恢复设备可随时恢复共享的项目。该备份和恢复设备基于来源的带宽和来源的距离来优化用于恢复项目的来源。该备份和恢复设备能够基于网络数据存储系统中的每个项目的文件类型以预定义的时间间隔生成一系列一个或多个虚拟快照。例如,对于文本文档文件类型,备份和恢复设备可以在每次更改时创建虚拟快照,而对于其它文件类型,备份和恢复设备可以每天创建一个或多个虚拟快照。对于基于文件类型的间隔,如果由项目(例如,系统文件)损坏引起的潜在损坏更大,则该备份和恢复设备可以使用户/管理员能够将用于生成一个或多个虚拟快照的预定义的时间间隔配置为更小,以便最大限度地减少数据丢失。
可选地,搜索所述特定项目的所有可用来源包括防止删除所述一系列虚拟快照中的任何一个虚拟快照。可选地,搜索所述特定项目的所有可用来源包括防止删除所述特定项目的任何可用来源。
预定义的间隔可以是基于网络数据存储系统中的每个项目的文件类型的。
可选地,所述一个或多个元数据元素包括每个项目的访问延迟,并且识别所述特定项目的最佳来源是基于所述访问延迟的。所述一个或多个元数据元素可以包括每个项目的访问可用性,并且识别所述特定项目的最佳来源是基于所述访问可用性的。所述一个或多个元数据元素可以包括每个项目的存储可靠性,并且识别所述特定项目的最佳来源是基于所述存储可靠性的。所述一个或多个元数据元素可以包括每个项目的上次更新时间,并且识别所述特定项目的最佳来源是基于所述上次更新时间的。所述一个或多个元数据元素可以包括对每个项目所做的更改次数,并且识别所述特定项目的最佳来源是基于所述更改次数的。
该备份和恢复设备有助于为要恢复的项目找到“最佳匹配”(即,最接近项目损坏之前该项目的原始版本的项目版本)。该备份和恢复设备使用户能够基于访问延迟、访问可用性、存储可靠性、上次更新时间和更改次数自定义搜索顺序。可选地,该备份和恢复设备响应于检测到所述特定项目的损坏,生成恢复所述特定项目的请求。可选地,恢复所述特定项目的项目数据包括通过计算所述项目数据的强哈希并将所述计算的强哈希与所述相应虚拟快照内的强哈希进行比较,来验证所述项目数据。
根据第三方面,提供了一种网络数据存储系统。该网络数据存储系统包括一个或多个网络连接的数据存储单元和备份和恢复设备。
解决了现有技术中的技术问题,其中,该技术问题是即使项目没有备份,也要恢复损坏的项目。
因此,与现有技术相比,根据一种计算机实现的在网络数据存储系统中备份和恢复的方法,用于在网络数据存储系统中执行备份和恢复。
根据下文描述的一种或多种实现方式,本公开的这些和其它方面是显而易见的。
附图说明
现仅通过示例的方式结合附图对本公开的各实现方式进行说明,其中:
图1是根据本公开的实现方式的网络数据存储系统的备份和恢复设备的框图;
图2是根据本公开的实现方式的网络数据存储系统的框图;
图3是根据本公开的实现方式的一个或多个网络数据存储系统的备份和恢复设备的分解图;
图4A至图4C示出了根据本公开的实现方式的网络数据存储系统的备份和恢复设备的示例性视图;
图5是根据本公开的实现方式的网络数据存储系统中备份和恢复的方法的流程图;
图6是示例性备份和恢复设备、计算机系统(例如,网络数据存储系统、网络连接的数据存储单元)的图示,其中,可以实现前述各种实现方式的各种架构和功能。
具体实施方式
本公开的实现方式提供了一种计算机实现的在网络数据存储系统中备份和恢复的方法、一种用于网络数据存储系统的备份和恢复设备,本公开还涉及一种网络数据存储系统,该网络数据存储系统包括用于在网络数据存储系统中执行备份和恢复的备份和恢复设备。
为了使本领域技术人员更容易理解本公开的方案,结合附图描述了本公开的以下实现方式。
本公开的发明内容部分、权利要求书及上述附图中的“第一”、“第二”、“第三”和“第四”(如果有)等术语用于区分相似的对象,而不一定用于描述特定的序列或顺序。应当理解,如此使用的术语在适当的情况下是可互换的,例如使得本文描述的本公开的实现方式能够以本文所示或所描述的序列以外的序列来实现。此外,术语“包括”和“具有”及其任何变体旨在涵盖非排他性包括。例如,包括一系列步骤或单元的过程、方法、系统、产品或设备不一定限于明确列出的步骤或单元,而是可以包括未明确列出的或此类过程、方法、产品或设备固有的其它步骤或单元。
图1是根据本公开的实现方式的网络数据存储系统的备份和恢复设备100的框图。备份和恢复设备100包括备份模块102和恢复模块104。备份模块102用于以预定义的时间间隔生成一系列一个或多个虚拟快照,其中,对于网络数据存储系统中的每个项目,该虚拟快照包括:(i)项目数据的强哈希,(ii)与所述项目相关的一个或多个元数据元素。恢复模块104用于响应于恢复特定项目的请求:(i)搜索所述一系列虚拟快照以查找所述特定项目的所有可用来源,(ii)识别所述特定项目的最佳来源,(iii)从所述识别的最佳来源恢复所述特定项目的项目数据。
备份和恢复设备100使用户能够有效地恢复被损坏且未备份的项目。如果该项目在共享时未损坏,则备份和恢复设备100可随时恢复共享的项目。备份和恢复设备100基于来源的带宽和来源的距离来优化用于恢复项目的来源。备份和恢复设备100能够基于网络数据存储系统中的每个项目的文件类型以预定义的时间间隔生成一系列一个或多个虚拟快照。例如,对于文本文档文件类型,备份和恢复设备100可以在每次更改时创建虚拟快照,而对于其它文件类型,备份和恢复设备100可以每天创建虚拟快照。
可选地,备份和恢复设备100搜索特定项目的所有可用来源包括防止删除一系列虚拟快照中的任何一个虚拟快照。备份和恢复设备100搜索特定项目的所有可用来源可以包括防止删除特定项目的任何可用来源。
可选地,预定义的间隔是基于网络数据存储系统中的每个项目的文件类型的。对于基于文件类型的预定义的间隔,如果由项目(例如,系统文件)损坏引起的潜在损坏更大,则备份和恢复设备100可以使用户/管理员能够将用于生成一个或多个虚拟快照的预定义的时间间隔配置为更小,以便最大限度地减少数据丢失。
如果在项目损坏之前的项目备份不可用,则备份和恢复设备100使用一系列一个或多个虚拟快照从具有相同项目的多个来源恢复项目数据。如果项目数据在其损坏之前的最新副本在本地不可用,备份和恢复设备100使用位于一系列一个或多个虚拟快照中的项目数据的强哈希从一不同位置恢复特定项目的项目数据(例如,文件)。备份和恢复设备100在任何给定时间提供所有项目数据及其版本(即,代)的完整系统概述。
可选地,所述一个或多个元数据元素包括每个项目的访问延迟,并且识别所述特定项目的最佳来源是基于所述访问延迟的。访问延迟可以被定义为用于恢复特定项目的最佳来源(即恢复位置)距离被损坏的项目所在的网络数据存储系统的网络连接的数据存储单元多远。对于网络数据存储系统中的每个可用恢复位置(即,网络连接的数据存储单元),可以通过将网络连接的延迟(即ping速度)存储在备份和恢复设备100中的内部表中,来确定访问延迟。
可选地,所述一个或多个元数据元素包括每个项目的访问可用性,并且识别所述特定项目的最佳来源是基于所述访问可用性的。访问可用性可以被定义为访问特定项目以恢复该特定项目的最佳来源(即恢复位置)的可用性。最佳来源(即恢复位置)可以是网络数据存储系统的较不常用的网络连接的数据存储单元或大量使用的网络连接的数据存储单元。备份和恢复设备100可以以预定义的时间间隔查询网络数据存储系统,收集统计信息(例如,每秒磁盘输入/输出操作、中央处理器(central processing unit,CPU)使用、随机存取存储器(random access memory,RAM)使用、网络负载等),并且确定网络数据存储系统中的每个可用的网络连接的数据存储单元的访问可用性的等级。例如,访问可用性的等级可以为从0到100。备份和恢复设备100可以将与访问可用性相关联的信息存储在内部表中。
可选地,所述一个或多个元数据元素可以包括每个项目的存储可靠性,并且识别所述特定项目的最佳来源是基于所述存储可靠性的。可选地,存储可靠性被定义为恢复特定项目的最佳来源(即恢复位置)的可靠性。最佳来源(即恢复位置)可以是具有不太可靠的硬件的旧数据存储单元或者具有副本的高端网络连接的数据存储单元,这使得高端网络连接的数据存储单元非常可靠。备份和恢复设备100可以以预定义的时间间隔查询网络数据存储系统,收集统计信息(例如,每秒磁盘输入/输出操作、中央处理器(CPU)使用、随机存取存储器(RAM)使用、网络负载等),并且确定网络数据存储系统中的每个可用的网络连接的数据存储单元的存储可靠性的等级。例如,存储可靠性的等级可以为从0到100。备份和恢复设备100可以将与存储可靠性相关联的信息存储在内部表中。
可选地,所述一个或多个元数据元素包括每个项目的上次更新时间,并且识别所述特定项目的最佳来源是基于所述上次更新时间的。项目的上次更新时间可以是接近损坏之前的原始项目上次更新的时间,并且损坏之前的原始项目的上次更新被标识为要从中恢复的最佳来源。可选地,所述一个或多个元数据元素包括对每个项目所做的更改次数,并且识别所述特定项目的最佳来源是基于所述更改次数的。如果对项目所做的更改次数(即与项目损坏之前的最新更新相比)较少,则可以使用更合适的项目来恢复。
备份和恢复设备100能够为要恢复的项目找到“最佳匹配”(即,最接近项目损坏之前该项目的原始版本的项目版本)。备份和恢复设备100使用户能够基于访问延迟、访问可用性、存储可靠性、上次更新时间和更改次数自定义搜索顺序。可选地,特定项目的最佳来源因用户而异,因为不同的用户对于在其网络数据存储系统中的各个位置或网络连接的数据存储单元中的查找顺序可能具有不同的偏好。
图2是根据本公开的实现方式的网络数据存储系统200的框图。网络数据存储系统200包括一个或多个网络连接的数据存储单元202A-N和备份和恢复设备204。备份和恢复设备204用于以预定义的时间间隔生成一系列一个或多个虚拟快照,其中,对于网络数据存储系统中的每个项目,该虚拟快照包括:(i)项目数据的强哈希,(ii)与所述项目相关的一个或多个元数据元素。备份和恢复设备204用于响应于恢复特定项目的请求:(i)搜索所述一系列虚拟快照以查找所述特定项目的所有可用来源,(ii)识别所述特定项目的最佳来源,(iii)从所述识别的最佳来源恢复所述特定项目的项目数据。
网络数据存储系统200是用于描述数据存储单元或多组数据存储单元的术语,网络使用该数据存储单元来通过高速连接存储数据的副本。网络连接的数据存储单元202A-N是必不可少的,因为该数据存储单元将关键文件和其它数据备份到中心位置。然后,用户可以容易地访问这些文件。网络连接的数据存储单元202A-N是连接到网络的存储设备,该网络能够为授权的网络用户从中心位置存储和检索数据。网络连接的数据存储单元202A-N是灵活的,因为数据存储单元使用户能够在需要时添加额外的存储。
图3是根据本公开的实现方式的一个或多个网络数据存储系统310A-N的备份和恢复设备300的分解图。备份和恢复设备300包括备份模块302、恢复模块304、内部收集器306和虚拟快照数据库(Database,DB)308。备份和恢复设备300为企业提供非结构化数据管理服务。备份和恢复设备300为整个企业存储提供单个管理控制台。内部收集器306从整个企业存储器中的所有网络数据存储系统310A-N收集关于非结构化数据的信息。网络数据存储系统310A-N可以包括网络连接的存储单元(例如,附网存储)312A-N、简单存储服务(S3)314、虚拟机环境(virtual Machine environment,VM)316、生产微软结构化查询语言(Microsoft Structured Query Language,MSSQL)服务器318和生产Oracle320。网络连接的存储单元312A-N是连接到计算机网络的文件级计算机数据存储服务器,用于向一组用户/客户端提供数据访问。网络连接的存储单元312A-N可选地专门用于通过其硬件、软件或配置来服务于项目/文件。S3 314是为互联网提供存储的网络服务。S3 314在云中具有高度可扩展性和安全性。微软SQL服务器(MSSQL)318和生产Oracle 320都是企业广泛使用的数据库或存储单元。备份和恢复设备300可以定期或通过“实时更新”收集一个或多个元数据元素。可选地,内部收集器306收集一个或多个元数据元素和其它附加合成数据(例如,通过计算过去24小时中每个项目的读取次数或任何其它合成信息,来提供项目/文件的输入/输出温度)。
备份和恢复设备300可以运行不同类型的查询、执行分析并提供对企业的网络连接的存储单元312A-N的见解(例如,根据客户/企业策略查找热数据和冷数据)。备份和恢复设备300可以在层之间或在内部移动项目(例如,文件或文档或S3对象)(例如,在同一层中从网络连接的存储单元312A移动到网络连接的存储单元312N)。备份模块302用于以预定义的时间间隔为网络数据存储系统310A-N中的每个项目生成一系列一个或多个虚拟快照,该虚拟快照包括一个或多个元数据元素和项目数据的强哈希。虚拟快照可以存储在虚拟快照数据库(DB)308中,以查找项目的副本位置。虚拟快照可以存储在任何类型的外部数据库(例如,ElasticSearch数据库)中。
可选地,所述一个或多个元数据元素包括每个项目的访问延迟,并且识别所述特定项目的最佳来源是基于所述访问延迟的。所述一个或多个元数据元素可以包括每个项目的访问可用性,并且识别所述特定项目的最佳来源是基于所述访问可用性的。所述一个或多个元数据元素可以包括每个项目的存储可靠性,并且识别所述特定项目的最佳来源是基于所述存储可靠性的。可选地,所述一个或多个元数据元素包括每个项目的上次更新时间,并且识别所述特定项目的最佳来源是基于所述上次更新时间的。所述一个或多个元数据元素可以包括对每个项目所做的更改次数,并且识别所述特定项目的最佳来源是基于所述更改次数的。
备份和恢复设备300有助于为项目找到“最佳匹配”(即,最接近项目损坏之前该项目的原始版本的项目版本)。备份和恢复设备300使用户能够基于访问延迟、访问可用性、存储可靠性、上次更新时间和更改次数自定义搜索顺序。
在一个示例中,提供了一种示例方法,该方法示出了虚拟快照如何查找特定项目的所有可用来源。例如,用户可以在其个人计算机(personal computer,PC)上具有项目/文件。用户的特定项目可以在网络驱动器中具有1天前的第一副本,在一不同的笔记本电脑中具有2天前的第二副本,并且具有可能在一周前执行的备份中的第三副本。由于所有4个项目(即原始项目和三个副本)表示不同网络连接的存储单元312A-N(即PC、网络驱动器和笔记本电脑)中的相同项目,所以4个项目中的每一个项目(即特定项目的不同代)的条目可以以元数据元素的形式在虚拟快照数据库(DB)308中创建。备份和恢复设备300可以不捕获与一个或多个虚拟快照中的特定项目相关的原始项目数据,相反,备份和恢复设备300可以保存特定项目的强哈希和元数据元素(例如,大小、创建时间、更新时间等)。
可选地,预定义的间隔是基于网络数据存储系统中的每个项目的文件类型的。备份和恢复设备300可以不时地创建一系列一个或多个虚拟快照,该虚拟快照包括一个或多个元数据元素和项目的强哈希(例如,MD5)。所述一个或多个虚拟快照可以不包括原始项目的真实备份,相反,虚拟快照包括具有一个或多个元数据元素的强哈希的形式的项目的本质或摘要。对于基于文件类型的预定义的间隔,如果由项目(例如,系统文件)损坏引起的潜在损坏更大,则备份和恢复设备300可以使用户/管理员能够将用于生成一个或多个虚拟快照的预定义的时间间隔配置为更小,以便最大限度地减少数据丢失。
可选地,备份和恢复设备300响应于检测到特定项目的损坏,生成恢复特定项目的请求。当项目被损坏时,备份和恢复设备300有效地找到最佳来源(例如,地方或位置),以从特定项目所在的网络数据存储系统恢复特定项目。备份和恢复设备300可以在一个或多个虚拟快照中搜索特定项目的所有可用来源(例如,特定项目的所有代和版本)。可选地,搜索所述特定项目的所有可用来源包括防止删除所述一系列虚拟快照中的任何一个虚拟快照。搜索特定项目的所有可用来源可能包括防止删除特定项目的任何可用来源。防止删除一系列一个或多个虚拟快照中的任何一个虚拟快照可以是临时的,也可以是由用户/管理员预先配置的。最佳来源可以是例如在不同位置(例如,不同的驱动器、不同的节点、不同的物理机或虚拟机、不同的网络连接的存储单元等)中的特定项目的副本。备份和恢复设备300可以使用一系列一个或多个虚拟快照,从不同的网络数据存储系统/数据中心或特定项目的早期版本/代来恢复损坏的项目。
可选地,如果在项目损坏之前的项目备份不可用,则备份和恢复设备300使用一系列一个或多个虚拟快照从具有相同项目的多个来源恢复特定项目的项目数据。恢复所述特定项目的项目数据可以包括通过计算所述项目数据的强哈希并将所述计算的强哈希与所述相应虚拟快照内的强哈希进行比较,来验证所述项目数据。如果项目数据在其损坏之前的最新副本在本地不可用,备份和恢复设备300使用位于一系列一个或多个虚拟快照中的项目数据的强哈希从一不同的位置恢复特定项目的项目数据(例如,文件)。
图4A至图4C示出了根据本公开的实现方式的网络数据存储系统的备份和恢复设备400的示例性视图。备份和恢复设备400包括备份模块、恢复模块和虚拟快照数据库(DB)402。图4A至图4C描述了备份和恢复网络数据存储系统中的每个项目的备份和恢复设备400的示例。图4A描绘了备份和恢复设备400可选地通信连接到一个或多个用户设备(例如,笔记本电脑)404A-C和一个或多个网络连接的存储单元406A-C。一个或多个用户设备404A-C可以分别由不同的用户(A-C)访问,并且可以分别存储相同的项目或文件(例如,f1、f2和f3)。一个或多个网络连接的数据存储单元406A-C可选地包括存储项目(f1)的第一网络连接的数据存储单元406A、存储项目(f2)的第二网络连接的数据存储单元406B、存储项目(f3)的第三网络连接的数据存储单元406C。虚拟快照DB 402可以存储具有创建日期和时间的项目(例如,f1、f2和f3)的一系列一个或多个虚拟快照(例如,虚拟快照1、虚拟快照2、虚拟快照3、虚拟快照4、虚拟快照5)。
例如,在2021年1月3日16点,在用户设备404A中检测到勒索软件,并且该勒索软件损坏了用户设备404A的项目(f1)。当项目(f1)被损坏时,如图4B所示,备份和恢复设备400立即在虚拟快照DB 402中搜索接近原始项目损坏之前的该原始项目的项目的一系列一个或多个虚拟快照,并识别出虚拟快照3包括损坏的项目(f1),如图4B所示。当识别不同版本的一系列一个或多个虚拟快照时,备份和恢复设备400可以防止删除该系列虚拟快照中的任何一个虚拟快照。备份和恢复设备400可以建议防止从其它系统(例如,用户设备404C、第三网络连接的存储单元406C)删除项目。
可选地,备份和恢复设备400从用户设备404A识别在2021年1月1日16:00(即,项目损坏的前两天)拍摄的相同项目(f1)的虚拟快照,并从上述日期和时间搜索项目的一系列一个或多个虚拟快照。可选地,备份和恢复设备400识别出项目(f1)存在于源自用户设备404C的虚拟快照2中(即,在用户设备404A的项目(f1)损坏的前一天),并从该日期和时间搜索真实备份快照。备份和恢复设备400可以直接从用户C检索项目(f1),计算其哈希,并验证该项目与来自用户设备404C的相同项目副本(f1)的哈希匹配。
可选地,备份和恢复设备400从用户设备404A识别在2021年1月3日16:00(即,在项目被损坏之前)拍摄的相同项目(f1)的虚拟快照,备份和恢复设备400在第三网络连接的数据存储单元406C中具有项目(f1)的副本,并从上述日期和时间搜索项目的一系列一个或多个虚拟快照。可选地,备份和恢复设备400识别出项目(f1)存在于源自用户设备404A的虚拟快照3中(即,在用户设备404A的项目(f1)损坏之前),并从该日期和时间搜索真实备份快照。备份和恢复设备400可以直接从第三网络连接的数据存储单元406C检索项目(f1),计算其哈希,并验证该项目与相同项目副本(来自用户设备404A的f1)的哈希匹配。
上面的示例展示了备份和恢复设备400在恢复能力方面的强大程度。备份和恢复设备400在任何给定时间提供所有项目数据及其版本(即,代)的完整系统概述。备份和恢复设备400有助于为要恢复的项目找到“最佳匹配”(即,最接近项目损坏之前该项目的原始版本的项目版本)。
图5是根据本公开的实现方式的在网络数据存储系统中备份和恢复的方法的流程图。在步骤502,以预定义的时间间隔生成一系列一个或多个虚拟快照,对于网络数据存储系统中的每个项目,该虚拟快照包括:(i)项目数据的强哈希,(ii)与所述项目相关的一个或多个元数据元素。在步骤504,响应于恢复特定项目的请求:(i)搜索所述一系列虚拟快照以查找所述特定项目的所有可用来源,(ii)识别所述特定项目的最佳来源,(iii)从所述识别的最佳来源恢复所述特定项目的项目数据。
该方法使用户能够有效地恢复被损坏且未备份的项目。如果该项目在共享时未损坏,则该方法可随时恢复共享的项目。该方法基于来源的带宽和来源的距离来优化用于恢复项目的来源。该方法能够基于网络数据存储系统中的每个项目的文件类型以预定义的时间间隔生成一系列一个或多个虚拟快照。例如,对于文本文档文件类型,该方法可以在每次更改时创建虚拟快照,而对于其它文件类型,该方法可以每天创建虚拟快照。对于基于文件类型的间隔,如果由项目(例如,系统文件)损坏引起的潜在损坏更大,则该方法可以使用户/管理员能够将用于生成一个或多个虚拟快照的预定义的时间间隔配置为更小,以便最大限度地减少数据丢失。
可选地,所述方法还包括响应于检测到所述特定项目的损坏,生成恢复所述特定项目的请求。恢复所述特定项目的项目数据可以包括通过计算所述项目数据的强哈希并将所述计算的强哈希与所述相应虚拟快照内的强哈希进行比较,来验证所述项目数据。
图6是示例性备份和恢复设备、计算机系统(例如,网络数据存储系统、网络连接的数据存储单元)的图示,其中,可以实现前述各种实现方式的各种架构和功能。如图所示,计算机系统600包括连接到总线602的至少一个处理器604,其中,计算机系统600可以使用任何合适的协议来实现,例如,外围组件互连(Peripheral Component Interconnect,PCI)、PCI-Express、加速图形端口(Accelerated Graphics Port,AGP)、超传输或任何其它总线或点对点通信协议。计算机系统600还包括存储器606。
控制逻辑(软件)和数据存储在存储器606中,该存储器可以采取随机存取存储器(RAM)的形式。在本公开中,单个半导体平台可以指唯一的基于单一半导体的集成电路或芯片。应当注意,术语“单个半导体平台”还可以指具有增强的连接性的多芯片模块,这些多芯片模块模拟具有增强的连接性的片上模块,片上模块模拟片上运行,相比利用传统的中央处理器(CPU)和总线的实现方式,实现了显著改进。当然,根据用户的需要,各种模块也可以单独存在或以半导体平台的各种组合的形式存在。
计算机系统600还可以包括辅助存储器610。辅助存储器610包括例如硬盘驱动器和可移动存储驱动器,例如,软盘驱动器、磁带驱动器、压缩磁盘驱动器、数字多功能磁盘(digital versatiledisk,DVD)驱动器、记录设备、通用串行总线(universal serial bus,USB)闪存。可移动存储驱动器以众所周知的方式执行以下操作中的至少一个:从可移动存储单元读取和写入可移动存储单元。
计算机程序或计算机控制逻辑算法可以存储在存储器606和辅助存储器610中的至少一个中。当执行这些计算机程序时,使计算机系统600能够执行如上所述的各种功能。存储器606、辅助存储器610和任何其它存储器是计算机可读介质的可能示例。
在一种实现方式中,在各种先前附图中描述的架构和功能可以在处理器604、耦合到通信接口612的图形处理器、能够具有处理器604和图形处理器两者的至少一部分能力的集成电路(未示出)和芯片组(即一组集成电路,被设计用于作为执行相关功能等的单元工作和销售)的上下文中实现。
此外,在各种先前描述的附图中描述的架构和功能可以在通用计算机系统、电路板系统、专用于娱乐目的的游戏机系统、专用系统的上下文中实现。例如,计算机系统600可以采取台式计算机、笔记本电脑、服务器、工作站、游戏机、嵌入式系统的形式。
此外,计算机系统600可以采取各种其它设备的形式,包括但不限于个人数字助理(personal digital assistant,PDA)设备、移动电话设备、智能手机、电视等。此外,尽管未示出,但计算机系统600可以耦合到网络(例如,电信网络、局域网(local area network,LAN)、无线网络、广域网(wide area network,WAN),例如,互联网、点对点网络、电缆网络等),以通过I/O接口608实现通信目的。
应当理解,在所描述的附图中示出的组件的布置是示例性的,并且其它布置也是可能的。还应理解,由权利要求定义的、下文描述的并在各种框图中示出的各种系统组件(和装置)代表根据本文公开的主题配置的一些系统中的组件。例如,这些系统组件(和装置)中的一个或多个系统组件(和装置)可以全部或部分地通过在所描述的附图中所示的布置中所示的至少一些组件实现。
此外,虽然这些组件中的至少一个至少部分地实现为电子硬件组件,并因此构成机器,但其它组件可以在软件中实现,当该软件被包括在执行环境中时,构成机器、硬件或软件和硬件的组合。
虽然本公开及其优点已详细描述,但是应当理解,在不脱离所附权利要求书界定的本公开的精神和范围的情况下,可以作出各种改变、替代和更改。

Claims (23)

1.一种计算机实现的在网络数据存储系统(200、310)中备份和恢复的方法,所述方法包括:
以预定义的时间间隔生成一系列一个或多个虚拟快照,其中,对于所述网络数据存储系统(200、310)中的每个项目,所述虚拟快照包括:
所述项目数据的强哈希,以及
与所述项目相关的一个或多个元数据元素;
响应于恢复特定项目的请求:
搜索所述一系列虚拟快照以查找所述特定项目的所有可用来源,
识别所述特定项目的所述最佳来源,
从所述识别的最佳来源恢复所述特定项目的项目数据。
2.根据权利要求1所述的方法,其中,搜索所述特定项目的所有可用来源包括防止删除所述一系列虚拟快照中的任何一个虚拟快照。
3.根据权利要求1或2所述的方法,其中,搜索所述特定项目的所有可用来源包括防止删除所述特定项目的任何可用来源。
4.根据前述权利要求中任一项所述的方法,其中,所述预定义的间隔是基于所述网络数据存储系统(200、310)中的每个项目的文件类型的。
5.根据前述权利要求中任一项所述的方法,其中,所述一个或多个元数据元素包括每个项目的访问延迟,并且识别所述特定项目的最佳来源是基于所述访问延迟的。
6.根据前述权利要求中任一项所述的方法,其中,所述一个或多个元数据元素包括每个项目的访问可用性,并且识别所述特定项目的最佳来源是基于所述访问可用性的。
7.根据前述权利要求中任一项所述的方法,其中,所述一个或多个元数据元素包括每个项目的存储可靠性,并且识别所述特定项目的最佳来源是基于所述存储可靠性的。
8.根据前述权利要求中任一项所述的方法,其中,所述一个或多个元数据元素包括每个项目的上次更新时间,并且识别所述特定项目的最佳来源是基于所述上次更新时间的。
9.根据前述权利要求中任一项所述的方法,其中,所述一个或多个元数据元素包括对每个项目所做的更改次数,并且识别所述特定项目的最佳来源是基于所述更改次数的。
10.根据前述权利要求中任一项所述的方法,还包括响应于检测到所述特定项目的损坏,生成恢复所述特定项目的请求。
11.根据前述权利要求中任一项所述的方法,其中,恢复所述特定项目的项目数据包括通过计算所述项目数据的强哈希并将所述计算的强哈希与所述相应虚拟快照内的强哈希进行比较,来验证所述项目数据。
12.一种用于网络数据存储系统(200、310)的备份和恢复设备(100、204、300、400),所述备份和恢复设备(100、204、300、400)包括:
备份模块(102、302),其中,所述备份模块用于以预定义的时间间隔生成一系列一个或多个虚拟快照,其中,对于所述网络数据存储系统(200、310)中的每个项目,所述虚拟快照包括:
所述项目数据的强哈希,以及
与所述项目相关的一个或多个元数据元素;
恢复模块(104、304),所述恢复模块用于响应于恢复特定项目的请求:
搜索所述一系列虚拟快照以查找所述特定项目的所有可用来源,
识别所述特定项目的所述最佳来源,
从所述识别的最佳来源恢复所述特定项目的项目数据。
13.根据权利要求12所述的备份和恢复设备(100、204、300、400),其中,搜索所述特定项目的可用来源包括防止删除所述一系列虚拟快照中的任何一个虚拟快照。
14.根据权利要求12或13所述的备份和恢复设备(100、204、300、400),其中,搜索所述特定项目的所有可用来源包括防止删除所述特定项目的任何可用来源。
15.根据权利要求12至14中任一项所述的备份和恢复设备(100、204、300、400),其中,所述预定义的间隔是基于所述网络数据存储系统(200、310)中的每个项目的文件类型的。
16.根据权利要求12至15中任一项所述的备份和恢复设备(100、204、300、400),其中,所述一个或多个元数据元素包括每个项目的访问延迟,并且识别所述特定项目的最佳来源是基于所述访问延迟的。
17.根据权利要求12至16中任一项所述的备份和恢复设备(100、204、300、400),其中,所述一个或多个元数据元素包括每个项目的访问可用性,并且识别所述特定项目的最佳来源是基于所述访问可用性的。
18.根据权利要求12至17中任一项所述的备份和恢复设备(100、204、300、400),其中,所述一个或多个元数据元素包括每个项目的存储可靠性,并且识别所述特定项目的最佳来源所述基于所述存储可靠性的。
19.根据权利要求12至18中任一项所述的备份和恢复设备(100、204、300、400),其中,所述一个或多个元数据元素包括每个项目的上次更新时间,并且识别所述特定项目的最佳来源是基于所述上次更新时间的。
20.根据权利要求12至19中任一项所述的备份和恢复设备(100、204、300、400),其中,所述一个或多个元数据元素包括对每个项目所做的更改次数,并且识别所述特定项目的最佳来源是基于所述更改次数的。
21.根据权利要求12至20中任一项所述的备份和恢复设备(100、204、300、400),其中,所述备份和恢复设备(100、204、300、400)响应于检测到所述特定项目的损坏,生成恢复所述特定项目的请求。
22.根据权利要求12至21中任一项所述的备份和恢复设备(100、204、300、400),其中,恢复所述特定项目的项目数据包括通过计算所述项目数据的强哈希并将所述计算的强哈希与所述相应虚拟快照内的强哈希进行比较,来验证所述项目数据。
23.一种网络数据存储系统(200、310),包括:
一个或多个网络连接的数据存储单元(202A-N、312A-N、406A-N);
根据权利要求12至22中任一项所述的备份和恢复设备(100、204、300、400)。
CN202180094479.8A 2021-03-24 2021-03-24 用于项目的多源恢复的设备和方法 Pending CN116917872A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2021/057517 WO2022199805A1 (en) 2021-03-24 2021-03-24 Device and method for multi-source recovery of items

Publications (1)

Publication Number Publication Date
CN116917872A true CN116917872A (zh) 2023-10-20

Family

ID=75302538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180094479.8A Pending CN116917872A (zh) 2021-03-24 2021-03-24 用于项目的多源恢复的设备和方法

Country Status (4)

Country Link
US (1) US20240012721A1 (zh)
EP (1) EP4302194A1 (zh)
CN (1) CN116917872A (zh)
WO (1) WO2022199805A1 (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080195676A1 (en) * 2007-02-14 2008-08-14 Microsoft Corporation Scanning of backup data for malicious software
US20130066838A1 (en) * 2011-09-12 2013-03-14 Microsoft Corporation Efficient data recovery
US8949197B2 (en) * 2011-10-31 2015-02-03 Oracle International Corporation Virtual full backups
US10241869B2 (en) * 2017-03-08 2019-03-26 International Business Machines Corporation Managing a deletion of a volume referenced by a snapshot of a consistency group
US10552269B2 (en) * 2017-08-31 2020-02-04 International Business Machines Corporation Backup optimization in hybrid storage environment
WO2020113438A1 (zh) * 2018-12-04 2020-06-11 深圳迈瑞生物医疗电子股份有限公司 一种自动备份方法、设备及计算机存储介质
US11327848B2 (en) * 2018-12-18 2022-05-10 Acronis International Gmbh System and method for data remediation without data loss

Also Published As

Publication number Publication date
EP4302194A1 (en) 2024-01-10
US20240012721A1 (en) 2024-01-11
WO2022199805A1 (en) 2022-09-29

Similar Documents

Publication Publication Date Title
US10802747B2 (en) Performing backup operations using replicas
US9928248B2 (en) Self-healing by hash-based deduplication
US8706694B2 (en) Continuous data protection of files stored on a remote storage device
US9524104B2 (en) Data de-duplication for information storage systems
US20110113013A1 (en) Duplicate backup data identification and consolidation
US10983869B2 (en) Recovering a failed clustered system using configuration data fragments
US11675741B2 (en) Adaptable multi-layered storage for deduplicating electronic messages
US10127119B1 (en) Systems and methods for modifying track logs during restore processes
US9946724B1 (en) Scalable post-process deduplication
US11392460B2 (en) Adaptable multi-layer storage with controlled restoration of protected data
US11194669B2 (en) Adaptable multi-layered storage for generating search indexes
US10877855B2 (en) Techniques for data backup and restoration
US11080142B2 (en) Preservation of electronic messages between snapshots
US11681586B2 (en) Data management system with limited control of external compute and storage resources
US11625304B2 (en) Efficient method to find changed data between indexed data and new backup
US10613923B2 (en) Recovering log-structured filesystems from physical replicas
US9342524B1 (en) Method and apparatus for single instance indexing of backups
Tan et al. SAFE: A source deduplication framework for efficient cloud backup services
US8150810B1 (en) Method and apparatus for file sharing between continuous and scheduled backups
US20240012721A1 (en) Device and method for multi-source recovery of items
Osuna et al. Implementing IBM storage data deduplication solutions
US11321194B2 (en) Recovery from a clustered file system queue failure event using a modified extended attribute of a file
US11442815B2 (en) Coordinating backup configurations for a data protection environment implementing multiple types of replication
US10445191B1 (en) Integration of restore service with data protection system
WO2022248047A1 (en) Method of continuous data protection (cdp) in a data storage system using delta compression

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination