CN114328031B - 元数据组织方法、系统、存储介质及备份方法、检索方法 - Google Patents
元数据组织方法、系统、存储介质及备份方法、检索方法 Download PDFInfo
- Publication number
- CN114328031B CN114328031B CN202210201398.XA CN202210201398A CN114328031B CN 114328031 B CN114328031 B CN 114328031B CN 202210201398 A CN202210201398 A CN 202210201398A CN 114328031 B CN114328031 B CN 114328031B
- Authority
- CN
- China
- Prior art keywords
- metadata
- file
- target
- information
- folder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种元数据组织方法、系统、存储介质及备份方法、检索方法。应用服务器端的方法包括:向数据源端发送请求;接收第一元数据和文件绝对路径;获取唯一标识;创建第二元数据,并对第二元数据进行更新;当文件备份完成时,将目标文件数据的数据备份端存放位置写入第二元数据;当文件夹备份完成时,将目标文件夹的子文件数量和目标文件夹子文件元数据的数据备份端存放位置写入第二元数据。应用于数据源端的方法包括:接收数据备份端请求;扫描数据源端;向数据备份端发送第一元数据和文件绝对路径。本发明在数据备份端通过重新组织元数据结构,确保备份数据准确,快速识别检索,有效实现元数据模块化管理。
Description
技术领域
本发明属于计算机数据处理领域,涉及一种元数据组织方法、系统、存储介质及备份方法、检索方法。
背景技术
数据备份是指为防止系统出现操作失误或系统故障导致数据丢失,而将全部或部分数据集合从应用主机的硬盘或阵列复制到其它的存储介质的过程。元数据(Metadata),又称中介数据、中继数据,是文件数据的组成部分,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,在数据备份中往往能够被识别,因此对于优化数据备份过程十分重要。
目前,为了实现高效数据备份,现有技术多采用模块化方式管理元数据,模块化后的元数据可以整拿整放,有更好的扩展性,可以提高备份效率,而为了达到模块化的效果,需要实现非模块化数据和可模块化数据之间的分离,但是传统的元数据模块组织形式并不能达到较好的分离效果并未完全的使得元数据独立模块化,从而影响了一些高级备份功能,例如增量备份、差异备份,这样不利于数据备份的使用。
因此,如何组织数据,以帮助用户管理模块化的元数据,和连接非模块化的元数据,成为当前急需解决的技术问题。
发明内容
本发明为了解决上述背景技术中的技术问题,本发明实施例提供了一种元数据组织方法、系统、存储介质及备份方法、检索方法。所述技术方案如下:
第一个方面,提供了一种元数据组织方法,用于数据备份端中,包括步骤:
向数据源端发送目标文件请求和/或目标文件夹请求;
接收数据源端的第一元数据和文件绝对路径,其中,所述第一元数据包括文件名、文件类型、文件创建时间、文件修改时间和文件大小;所述第一元数据为目标文件的第一元数据和/或目标文件夹的第一元数据;所述文件绝对路径为目标文件的文件绝对路径和/或目标文件夹的文件绝对路径;
获取目标文件的唯一标识;
创建第二元数据,并根据所述第一元数据、所述文件绝对路径和所述唯一标识,对所述第二元数据进行更新;
当目标文件备份完成时,获取第一信息,并根据所述第一信息对所述第二元数据进行更新,其中,所述第一信息为目标文件数据的数据备份端存放位置;
当目标文件夹备份完成时,获取第二信息,并根据所述第二信息对所述第二元数据进行更新,其中,所述第二信息为目标文件夹的子文件数量和目标文件夹子文件元数据的数据备份端存放位置。
第二方面,还提供了一种元数据组织方法,用于数据源端中,包括步骤:
接收数据备份端的目标文件请求和/或目标文件夹请求;
根据所述目标文件请求和/或目标文件夹请求,扫描数据源端,获取目标文件和/或目标文件夹;
向数据备份端发送第一元数据和文件绝对路径,所述第一元数据包括文件名、文件类型、文件创建时间、文件修改时间和文件大小;所述数据备份端还用于获取目标文件的唯一标识;所述第一元数据、所述文件绝对路径和所述唯一标识用于更新第二元数据;所述第二元数据用于当目标文件备份完成时,根据第一信息更新第二元数据,还用于当目标文件夹备份完成时,根据第二信息更新第二元数据,所述第一信息为目标文件数据的数据备份端存放位置,所述第二信息为目标文件夹的子文件数量和目标文件夹子文件元数据的数据备份端存放位置。
第三个方面,还提供了一种元数据组织系统,用于数据备份端中,所述系统包括:
第一发送模块,用于向数据源端发送目标文件请求和/或目标文件夹请求;
第一接收模块,用于接收数据源端的第一元数据和文件绝对路径,其中,所述第一元数据包括文件名、文件类型、文件创建时间、文件修改时间和文件大小;所述第一元数据为目标文件的第一元数据和/或目标文件夹的第一元数据;所述文件绝对路径为目标文件的文件绝对路径和/或目标文件夹的文件绝对路径;
唯一标识获取模块,用于获取目标文件的唯一标识;
第一更新模块,用于创建第二元数据,并根据所述第一元数据、所述文件绝对路径和所述唯一标识,对所述第二元数据进行更新;
第二更新模块,用于当目标文件备份完成时,获取第一信息,并根据所述第一信息对所述第二元数据进行更新,其中,所述第一信息为目标文件数据的数据备份端存放位置;
第三更新模块,用于当目标文件夹备份完成时,获取第二信息,并根据所述第二信息对所述第二元数据进行更新,其中,所述第二信息为目标文件夹的子文件数量和目标文件夹子文件元数据的数据备份端存放位置。
第四个方面,还提供一种元数据组织系统,用于数据源端中,包括:
第二接收模块,用于接收数据备份端的目标文件请求和/或目标文件夹请求;
扫描模块,根据所述目标文件请求和/或目标文件夹请求,扫描数据源端,获取目标文件和/或目标文件夹的第一元数据以及构建其绝对路径;
第二发送模块,用于向数据备份端发送第一元数据和文件绝对路径,所述第一元数据包括文件名、文件类型、文件创建时间、文件修改时间和文件大小;所述数据备份端还用于获取目标文件的唯一标识;所述第一元数据、所述文件绝对路径和所述唯一标识用于更新第二元数据;所述第二元数据用于当目标文件备份完成时,根据第一信息更新第二元数据,还用于当目标文件夹备份完成时,根据第二信息更新第二元数据,所述第一信息为目标文件数据的数据备份端存放位置,所述第二信息为目标文件夹的子文件数量和目标文件夹子文件元数据的数据备份端存放位置。
第五个方面,还提供一种文件数据备份方法,利用上述元数据组织方法,当接收到备份指令时,根据所述第二元数据,获取差异清单或增量清单,再根据差异清单或增量清单,对目标文件和/或目标文件夹进行备份,其中,所述差异清单包括目标文件与备份文件之间的差异清单、目标文件夹与备份文件夹之间的差异清单;所述增量清单包括目标文件与备份文件之间的增量清单、目标文件夹与备份文件夹之间的增量清单;所述第二元数据经过所述第一元数据、所述文件绝对路径、所述唯一标识、所述第一信息和所述第二信息更新。
第六个方面,还提供一种用于数据备份的快速检索方法,利用上述元数据组织方法,根据所述第二元数据,从数据备份端元数据存放文件中获取元数据存放文件的起始位置,再按照从首位至末位的顺序,依次检索,获取待检索的文件元数据,其中,所述第二元数据经过所述第一元数据、所述文件绝对路径、所述唯一标识、所述第一信息和所述第二信息更新。
第七个方面,还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述元数据组织方法。
本发明的有益效果是:
(1)本发明通过在数据备份端更新元数据结构的标记信息,例如唯一标识,能够有效实现非模块化数据和可模块化数据之间的分离,识别效果明显,有助于实现元数据的模块化管理;
(2)本发明基于绝对路径,标记信息的索引映射结构可以直接使用,避免了恢复展示目录树时期需要构造绝对路径,而产生的用户等待时间,有效地提升了数据检索速度,优化了备份过程;
(3)本发明通过在数据备份端重新组织元数据结构,不仅能够确保备份后的元数据准确,还能够实现快速检索,实现差异备份和增量备份等高级备份功能的稳定使用;
(4)本发明通过在数据备份端再构造每个元数据,使得每个元数据独立性更高,元数据之间的关联更低,且在用户文件夹层级过深并且数量级较大的情况下,依然拥有着快速、稳定、优良的表现。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明 的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。
图1为本发明实施例1服务器端元数据组织方法的流程图。
图2为本发明实施例1和实施例2中通过广度遍历获得文件、文件夹的组织图。
图3为本发明实施例1更新后的第二元数据组织结构示意图。
图4为本发明实施例2客户端元数据组织方法的流程图。
图5为本发明实施例3服务器端文件数据备份系统的结构图。
图6为本发明实施例3第二更新模块的结构图。
图7为本发明实施例3第三更新模块的结构图。
图8为本发明实施例4客户端文件数据备份系统的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
术语解释:
(1)目标文件:是指待备份文件,即需要扫描储存的文件;
(2)目标文件夹:是指待备份文件夹,即需要扫描储存的文件夹。
实施例1
在一个实施例中,如图1所示,提供一种元数据组织方法,用于服务器端中,该方法包括:
S1.向客户端发送目标文件请求和目标文件夹请求。
值得说明的是,服务器端的接收情况取决于在客户端的扫描情况,因为在对客户端进行扫描之前,客户端存放的内容无法预计,可能仅含有目标文件,可能仅含有目标文件夹,也可能同时含有目标文件和目标文件夹。
S2.接收客户端的第一元数据和文件绝对路径,其中,所述第一元数据包括文件名、文件类型、文件创建时间、文件修改时间和文件大小;所述第一元数据为目标文件的第一元数据和目标文件夹的第一元数据;所述文件绝对路径为目标文件的文件绝对路径和目标文件夹的文件绝对路径。
可选的,所述步骤S2,还包括:所述第一元数据和所述文件绝对路径均由所述客户端(即数据源端)通过广度遍历的方式获得。
为了便于理解,我们提供一个绝对路径的具体操作例:客户端在扫描文件的同时记录其父文件的绝对路径,如图2所示,floder_1父文件绝对路径为:C:/;file_2(100)父文件绝对路径为:C:/floder_1,其后客户端将绝对路径信息发送给服务器端。之后,客户端接收到的绝对路径信息包括:floder_1父文件绝对路径为:C:/;file_2(100)父文件绝对路径为:C:/floder_1。
S3.计算获取目标文件的MD5值。
通过系统API能够获得的元数据,包括文件名、文件类型、文件创建时间、文件修改时间和文件大小等,而绝对路径在文件系统中的长度是固定的,例如linux绝对路径长度最大为为4096字符,再通过结构化这些信息,可以得到一个固定长度大小的数据结构体,即第二元数据,这样便实现了元数据的模块化管理。
本步骤中可以根据不同的规则获取目标文件的唯一标识,例如MD5值、哈希值等其他算法,对数据计算唯一标识码的方式并不唯一。在本实施例中,是计算获取MD5值作为唯一标识。
MD5,即Message-Digest Algorithm 5(信息-摘要算法5),用于确保信息传输完整一致。MD5具有较好的压缩性任意长度的数据,算出的MD5值长度都是固定,这为实现元数据的模块化奠定了基础,同时MD5还具有较好的抗修改性,对原数据进行任何改动,所得到的MD5值都有很大区别,因此MD5作为元数据的标识信息,可以有效提高备份的准确性,加快数据的搜索速度。
除此之外,将唯一标识结合绝对路径后,唯一标识索引映射的结果可以直接使用;若是采用相对路径,则在获得元数据结果后还需要进行绝对路径的构建,这不仅需要更多的空间存放额外的标记信息,而且还会增加操作次数影响效率,并不利于元数据的模块化。
S4.创建第二元数据,并根据所述第一元数据、所述文件绝对路径和所述MD5值,对所述第二元数据进行更新。
需要理解的,步骤S4中,创建的第二元数据是一个空值的结构体,通过将MD5值、绝对路径和第一元数据(即文件名、文件类型、文件创建时间、文件修改时间和文件大小)写入第二元数据中,第二元数据逐步更新为一个由MD5值、绝对路径和第一元数据组成的新的结构体,更新后的第二元数据能够帮助服务器端(即数据备份端)快速检索本端文件数据。
S5.当目标文件备份完成时,获取第一信息,并根据所述第一信息对所述第二元数据进行更新,其中,所述第一信息为目标文件数据的服务器端存放位置。
可选的,所述步骤S5,包括:
S51.当目标文件备份完成时,标记第二元数据需要更新第一信息,并将标记后的第二元数据添加进文件元数据待更新队列,其中,所述第一信息为目标文件数据的服务器端存放位置;
S52.根据文件元数据待更新队列,对所述标记后的第二元数据进行更新。
S6.当目标文件夹备份完成时,获取第二信息,并根据所述第二信息对所述第二元数据进行更新,其中,所述第二信息为目标文件夹的子文件数量和目标文件夹子文件元数据的服务器端存放位置。
可选的,所述步骤S6,包括:
S61.当目标文件夹备份完成时,标记第二元数据需要更新第二信息,并将标记后的第二元数据添加进文件夹元数据待更新队列,其中,所述第二信息为目标文件夹的子文件数量和目标文件夹子文件元数据的服务器端存放位置;
S62.判断所述目标文件夹的子文件是否全部获取;
S63.若是,则根据文件夹元数据待更新队列,对所述标记后的第二元数据进行更新;
S64.若否,则待获取目标文件夹的子文件全部获取后,再根据文件夹元数据待更新队列,对所述标记后的第二元数据进行更新。
值得说明的是,目标文件夹下的子文件个数是无法预计的,为了更好的还原目标文件夹的结构,因此需要添加表示目录下子文件的标记信息。同时,为了数据处理和管理方便,需要将文件的元数据和数据进行分开管理,并且添加文件数据的标记信息用于管理文件数据。
还值得说明的是,通过子文件数量和子文件元数存放位置,结合绝对路径,能够省去了恢复时需要先构建目录树的步骤,避免了用户在急需恢复操作时等待目录树构建完全后才能使用的尴尬,优化了用户的使用体验。如图3所示,FsAttrib是经过步骤S1至步骤S6更新得到的第二元数据结构,其中各组成释义如表1所示。
本实施例的技术方案,通过更新元数据结构的标记信息,能够有效实现非模块化数据和可模块化数据之间的分离,识别效果明显,有助于实现元数据的模块化管理。
实施例2
如图4所示,在一个实施例中,提供了一种元数据组织方法,用于客户端中,包括步骤:
S100.接收服务器端的目标文件请求和目标文件夹请求。
S200.根据所述目标文件请求和目标文件夹请求,通过广度遍历的方式扫描客户端,获取第一元数据和文件绝对路径。
值得说明的是,广度遍历是指是从一个顶点V0开始,辐射状地优先遍历其周围较广的区域,具体的,如图2所示,广度遍历是从顶点V0(即C:/)开始,按照编号大小,依次扫描V0至V8,其中,floder代表文件夹,例如floder_1、floder_2和floder_3;file代表文件;file括号内的数字代表文件数据的大小,例如file_1(100)、file_2(100)、file_3(50)、file_4(100)和file_5(150)。另外,相对深度遍历来说,广度遍历在于可以第一时间的获得当前扫描的文件夹的第二信息,方便了数据存储端的第二元数据的更新和管理,极大的降低了数据处理的难度,减少了系统资源的开销。同时以广度遍历作为基础,让文件夹下的子文件元数据可以以相邻的方式进行存储,使得元数据的管理更加模块化、有序以及便捷。
S300.向服务器端发送第一元数据和文件绝对路径,所述第一元数据包括文件名、文件类型、文件创建时间、文件修改时间和文件大小;所述数据备份端还用于获取目标文件的MD5值;所述第一元数据、所述文件绝对路径和所述MD5值用于更新第二元数据;所述第二元数据用于当目标文件备份完成时,根据第一信息更新第二元数据,还用于当目标文件夹备份完成时,根据第二信息更新第二元数据,所述第一信息为目标文件数据的服务器端存放位置,所述第二信息为目标文件夹的子文件数量和目标文件夹子文件元数据的服务器端存放位置。
本实施例由客户端控制扫描和发送,减少了请求发送到服务器端时需要耗费的流量,使用方便。
实施例3
如图5所示,在一个实施例中,提供了一种元数据组织系统,用于服务器端中,该系统包括:
第一发送模块1001,用于向客户端发送目标文件请求和目标文件夹请求;
第一接收模块1002,用于接收客户端的第一元数据和文件绝对路径,其中,所述第一元数据包括文件名、文件类型、文件创建时间、文件修改时间和文件大小;所述第一元数据为目标文件的第一元数据和目标文件夹的第一元数据;所述文件绝对路径为目标文件的文件绝对路径和目标文件夹的文件绝对路径;
唯一标识获取模块1003,用于获取目标文件的MD5值;
第一更新模块1004,用于创建第二元数据,并根据所述第一元数据、所述文件绝对路径和所述MD5值,对所述第二元数据进行更新;
第二更新模块1005,用于当目标文件备份完成时,获取第一信息,并根据所述第一信息对所述第二元数据进行更新,其中,所述第一信息为目标文件数据的服务器端存放位置;
第三更新模块1006,用于当目标文件夹备份完成时,获取第二信息,并根据所述第二信息对所述第二元数据进行更新,其中,所述第二信息为目标文件夹的子文件数量和目标文件夹子文件元数据的服务器端存放位置。
可选的,如图6所示,所述第二更新模块1005,包括:
第一标记添加单元10051,用于当目标文件备份完成时,标记第二元数据需要更新第一信息,并将标记后的第二元数据添加进文件元数据待更新队列,其中,所述第一信息为目标文件数据的服务器端存放位置;
第一获取更新单元10052,用于根据文件元数据待更新队列,对所述标记后的第二元数据进行更新。
可选的,如图7所示,所述第三更新模块1006,包括:
第二标记添加单元10061,用于当目标文件夹备份完成时,标记第二元数据需要更新第二信息,并将标记后的第二元数据添加进文件夹元数据待更新队列,其中,所述第二信息为目标文件夹的子文件数量和目标文件夹子文件元数据的服务器端存放位置;
判断单元10062,用于判断所述目标文件夹的子文件是否全部获取;
第二获取更新单元10063,用于若是,则根据文件夹元数据待更新队列,对所述标记后的第二元数据进行更新;
第三获取更新单元10064,用于若否,则待获取目标文件夹的子文件全部获取后,再根据文件夹元数据待更新队列,对所述标记后的第二元数据进行更新。
本实施例的技术方案通过再构造每个元数据,使得每个元数据独立性更高,元数据之间的关联更低,且在用户文件夹层级过深并且数量级较大的情况下,依然拥有着快速、稳定、优良的表现。
实施例4
如图8所示,在一个实施例中,提供了一种元数据组织系统,用于客户端中,该系统包括:
第二接收模块2001,用于接收服务器端的目标文件请求和目标文件夹请求;
扫描模块2002,根据所述目标文件请求和目标文件夹请求,扫描客户端,获取目标文件和目标文件夹的第一元数据以及构建其绝对路径;
第二发送模块2003,用于向服务器端发送第一元数据和文件绝对路径,所述第一元数据包括文件名、文件类型、文件创建时间、文件修改时间和文件大小;所述数据备份端还用于获取目标文件的MD5值;所述第一元数据、所述文件绝对路径和所述MD5值用于更新第二元数据;所述第二元数据用于当目标文件备份完成时,根据第一信息更新第二元数据,还用于当目标文件夹备份完成时,根据第二信息更新第二元数据,所述第一信息为目标文件数据的服务器端存放位置,所述第二信息为目标文件夹的子文件数量和目标文件夹子文件元数据的服务器端存放位置。
本实施例服务器端侧系统自行调整控制扫描和发送,以此控制请求发送的数量,避免客户端流量过载,带给用户更好的体验。
实施例5
在一个实施例中,提供了一种文件数据备份方法,其利用实施例1所述元数据组织方法,当接收到差异备份指令时,根据第二元数据,服务器端计算出差异清单,再对目标文件和目标文件夹进行备份,其中,所述差异清单包括目标文件与备份文件之间的差异清单;目标文件夹与备份文件夹之间的差异清单;所述第二元数据经过所述第一元数据、所述文件绝对路径、所述唯一标识、所述第一信息和所述第二信息更新。
可以理解的是,上述目标文件为本次选定的待备份文件;上述备份文件为上一次完全备份的备份文件。通过比较目标文件和备份文件之间的差异,产生所述差异清单。
本实施例通过重新组织元数据结构,借助标志信息能够更准确地计算出差异清单,使得备份后的元数据准确,进而实现差异备份功能的稳定使用。
实施例6
在一个实施例中,提供了一种文件数据备份方法,其利用实施例1所述元数据组织方法,当接收到增量备份指令时,根据第二元数据,服务器端计算出增量清单,再对目标文件和目标文件夹进行备份,其中,所述增量清单包括目标文件与备份文件之间的增量清单;目标文件夹与备份文件夹之间的增量清单;所述第二元数据经过所述第一元数据、所述文件绝对路径、所述唯一标识、所述第一信息和所述第二信息更新。
可以理解的是,上述目标文件为本次选定的待备份文件;上述备份文件为上一次完全备份的备份文件或上一次增量备份的备份文件。通过比较目标文件和备份文件之间的差异,产生所述增量清单。
本实施例通过重新组织元数据结构,借助标志信息能够更准确地计算出增量清单,使得备份后的元数据准确,进而实现差异备份功能的稳定使用。
实施例7
在一个实施例中,提供了一种用于数据备份的快速检索方法,利用实施例1所述元数据组织方法,根据所述第二元数据,从服务器端元数据存放文件中获取元数据存放文件的起始位置,再按照从首位至末位的顺序,依次检索,获取待检索的文件元数据,其中,所述第二元数据经过所述第一元数据、所述文件绝对路径、所述唯一标识、所述第一信息和所述第二信息更新。
由于第二元数据中存放有绝对路径,在检索时,不需要考虑目录树的结构性,从存放元数据文件的开头,按照单个元数据的大小依次读取,便能够快速方便地查到符合要求的数据,检索操作简便,数据检索速度提升较为明显。
实施例8
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例1所述元数据组织方法。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++、Ruby、Go,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种元数据组织方法,其特征在于,用于数据备份端中,包括步骤:
向数据源端发送目标文件请求和/或目标文件夹请求;
接收数据源端的第一元数据和文件绝对路径,其中,所述第一元数据包括文件名、文件类型、文件创建时间、文件修改时间和文件大小;所述第一元数据为目标文件的第一元数据和/或目标文件夹的第一元数据;所述文件绝对路径为目标文件的文件绝对路径和/或目标文件夹的文件绝对路径;所述第一元数据通过系统API获得;
获取目标文件的唯一标识;
创建第二元数据,并根据所述第一元数据、所述文件绝对路径和所述唯一标识,对所述第二元数据进行更新;
当目标文件备份完成时,获取第一信息,并根据所述第一信息对所述第二元数据进行更新,其中,所述第一信息为目标文件数据的数据备份端存放位置;
当目标文件夹备份完成时,获取第二信息,并根据所述第二信息对所述第二元数据进行更新,其中,所述第二信息为目标文件夹的子文件数量和目标文件夹子文件元数据的数据备份端存放位置。
2.根据权利要求1所述的元数据组织方法,其特征在于,所述获取第一信息,并根据所述第一信息对所述第二元数据进行更新步骤,包括:
当目标文件备份完成时,标记第二元数据需要更新第一信息,并将标记后的第二元数据添加进文件元数据待更新队列,其中,所述第一信息为目标文件数据的数据备份端存放位置;
根据文件元数据待更新队列,对所述标记后的第二元数据进行更新。
3.根据权利要求1所述的元数据组织方法,其特征在于,所述获取第二信息,并根据所述第二信息对所述第二元数据进行更新步骤,包括:
当目标文件夹备份完成时,标记第二元数据需要更新第二信息,并将标记后的第二元数据添加进文件夹元数据待更新队列,其中,所述第二信息为目标文件夹的子文件数量和目标文件夹子文件元数据的数据备份端存放位置;
判断所述目标文件夹的子文件是否全部获取;
若是,则根据文件夹元数据待更新队列,对所述标记后的第二元数据进行更新;
若否,则待获取目标文件夹的子文件全部获取后,再根据文件夹元数据待更新队列,对所述标记后的第二元数据进行更新。
4.一种元数据组织方法,其特征在于,用于数据源端中,包括步骤:
接收数据备份端的目标文件请求和/或目标文件夹请求;
根据所述目标文件请求和/或目标文件夹请求,通过系统API扫描数据源端,获取第一元数据和文件绝对路径;
向数据备份端发送第一元数据和文件绝对路径,所述第一元数据包括文件名、文件类型、文件创建时间、文件修改时间和文件大小;所述数据备份端还用于获取目标文件的唯一标识;所述第一元数据、所述文件绝对路径和所述唯一标识用于更新第二元数据;所述第二元数据用于当目标文件备份完成时,根据第一信息更新第二元数据,还用于当目标文件夹备份完成时,根据第二信息更新第二元数据,所述第一信息为目标文件数据的数据备份端存放位置,所述第二信息为目标文件夹的子文件数量和目标文件夹子文件元数据的数据备份端存放位置。
5.一种元数据组织系统,其特征在于,用于数据备份端中,所述系统包括:
第一发送模块,用于向数据源端发送目标文件请求和/或目标文件夹请求;
第一接收模块,用于接收数据源端的第一元数据和文件绝对路径,其中,所述第一元数据包括文件名、文件类型、文件创建时间、文件修改时间和文件大小;所述第一元数据为目标文件的第一元数据和/或目标文件夹的第一元数据;所述文件绝对路径为目标文件的文件绝对路径和/或目标文件夹的文件绝对路径;所述第一元数据通过系统API获得;
唯一标识获取模块,用于获取目标文件的唯一标识;
第一更新模块,用于创建第二元数据,并根据所述第一元数据、所述文件绝对路径和所述唯一标识,对所述第二元数据进行更新;
第二更新模块,用于当目标文件备份完成时,获取第一信息,并根据所述第一信息对所述第二元数据进行更新,其中,所述第一信息为目标文件数据的数据备份端存放位置;
第三更新模块,用于当目标文件夹备份完成时,获取第二信息,并根据所述第二信息对所述第二元数据进行更新,其中,所述第二信息为目标文件夹的子文件数量和目标文件夹子文件元数据的数据备份端存放位置。
6.根据权利要求5所述的元数据组织系统,其特征在于,所述第二更新模块,包括:
第一标记添加单元,用于当目标文件备份完成时,标记第二元数据需要更新第一信息,并将标记后的 第二元数据添加进文件元数据待更新队列,其中,所述第一信息为目标文件数据的数据备份端存放位置;
第一获取更新单元,用于根据文件元数据待更新队列,对所述标记后的第二元数据进行更新;
所述第三更新模块,包括:
第二标记添加单元,用于当目标文件夹备份完成时,标记第二元数据需要更新第二信息,并将标记后的第二元数据添加进文件夹元数据待更新队列,其中,所述第二信息为目标文件夹的子文件数量和目标文件夹子文件元数据的数据备份端存放位置;
判断单元,用于判断所述目标文件夹的子文件是否全部获取;
第二获取更新单元,用于若是,则根据文件夹元数据待更新队列,对所述标记后的第二元数据进行更新;
第三获取更新单元,用于若否,则待获取目标文件夹的子文件全部获取后,再根据文件夹元数据待更新队列,对所述标记后的第二元数据进行更新。
7.一种元数据组织系统,其特征在于,用于数据源端中,包括:
第二接收模块,用于接收数据备份端的目标文件请求和/或目标文件夹请求;
扫描模块,根据所述目标文件请求和/或目标文件夹请求,通过系统API扫描数据源端,获取目标文件和/或目标文件夹的第一元数据以及构建其绝对路径;
第二发送模块,用于向数据备份端发送第一元数据和文件绝对路径,所述第一元数据包括文件名、文件类型、文件创建时间、文件修改时间和文件大小;所述数据备份端还用于获取目标文件的唯一标识;所述第一元数据、所述文件绝对路径和所述唯一标识用于更新第二元数据;所述第二元数据用于当目标文件备份完成时,根据第一信息更新第二元数据,还用于当目标文件夹备份完成时,根据第二信息更新第二元数据,所述第一信息为目标文件数据的数据备份端存放位置,所述第二信息为目标文件夹的子文件数量和目标文件夹子文件元数据的数据备份端存放位置。
8.一种文件数据备份方法,其特征在于,利用权利要求1至3任一所述的元数据组织方法,当接收到备份指令时,根据所述第二元数据,获取差异清单或增量清单,再根据差异清单或增量清单,对目标文件和/或目标文件夹进行备份,其中,所述差异清单包括目标文件与备份文件之间的差异清单、目标文件夹与备份文件夹之间的差异清单;所述增量清单包括目标文件与备份文件之间的增量清单、目标文件夹与备份文件夹之间的增量清单;所述第二元数据经过所述第一元数据、所述文件绝对路径、所述唯一标识、所述第一信息和所述第二信息更新。
9.一种用于数据备份的快速检索方法,其特征在于,利用权利要求1至3任一所述的元数据组织方法,根据所述第二元数据,从数据备份端元数据存放文件中获取元数据存放文件的起始位置,再按照从首位至末位的顺序,依次检索,获取待检索的文件元数据,其中,所述第二元数据经过所述第一元数据、所述文件绝对路径、所述唯一标识、所述第一信息和所述第二信息更新。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至3任一所述的元数据组织方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210201398.XA CN114328031B (zh) | 2022-03-03 | 2022-03-03 | 元数据组织方法、系统、存储介质及备份方法、检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210201398.XA CN114328031B (zh) | 2022-03-03 | 2022-03-03 | 元数据组织方法、系统、存储介质及备份方法、检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114328031A CN114328031A (zh) | 2022-04-12 |
CN114328031B true CN114328031B (zh) | 2022-06-07 |
Family
ID=81031110
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210201398.XA Active CN114328031B (zh) | 2022-03-03 | 2022-03-03 | 元数据组织方法、系统、存储介质及备份方法、检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114328031B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115617542A (zh) * | 2022-10-11 | 2023-01-17 | 阿里巴巴(中国)有限公司 | 内存交换方法、装置、计算机设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101706805A (zh) * | 2009-10-30 | 2010-05-12 | 中国科学院计算技术研究所 | 对象存储方法及其系统 |
CN102523267A (zh) * | 2011-12-08 | 2012-06-27 | 华中科技大学 | 云备份系统和云备份方法 |
CN108733507A (zh) * | 2017-04-17 | 2018-11-02 | 伊姆西Ip控股有限责任公司 | 文件备份和恢复的方法和设备 |
CN111045857A (zh) * | 2018-10-12 | 2020-04-21 | 伊姆西Ip控股有限责任公司 | 数据备份和恢复的方法、电子设备和计算机可读存储介质 |
US10769103B1 (en) * | 2017-10-06 | 2020-09-08 | EMC IP Holding Company LLC | Efficient content indexing of incremental block-based backups |
WO2021238267A1 (zh) * | 2020-05-29 | 2021-12-02 | 浪潮电子信息产业股份有限公司 | 基于集群文件系统的数据备份方法、装置及可读存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101980203A (zh) * | 2010-10-29 | 2011-02-23 | 中国科学院声学研究所 | 一种用于高清媒体的嵌入式文件系统 |
US10311021B1 (en) * | 2012-02-08 | 2019-06-04 | Veritas Technologies Llc | Systems and methods for indexing backup file metadata |
US8977596B2 (en) * | 2012-12-21 | 2015-03-10 | Zetta Inc. | Back up using locally distributed change detection |
US9372757B2 (en) * | 2013-10-18 | 2016-06-21 | Netapp, Inc. | Incremental block level backup |
-
2022
- 2022-03-03 CN CN202210201398.XA patent/CN114328031B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101706805A (zh) * | 2009-10-30 | 2010-05-12 | 中国科学院计算技术研究所 | 对象存储方法及其系统 |
CN102523267A (zh) * | 2011-12-08 | 2012-06-27 | 华中科技大学 | 云备份系统和云备份方法 |
CN108733507A (zh) * | 2017-04-17 | 2018-11-02 | 伊姆西Ip控股有限责任公司 | 文件备份和恢复的方法和设备 |
US10769103B1 (en) * | 2017-10-06 | 2020-09-08 | EMC IP Holding Company LLC | Efficient content indexing of incremental block-based backups |
CN111045857A (zh) * | 2018-10-12 | 2020-04-21 | 伊姆西Ip控股有限责任公司 | 数据备份和恢复的方法、电子设备和计算机可读存储介质 |
WO2021238267A1 (zh) * | 2020-05-29 | 2021-12-02 | 浪潮电子信息产业股份有限公司 | 基于集群文件系统的数据备份方法、装置及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114328031A (zh) | 2022-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111045857B (zh) | 数据备份和恢复的方法、电子设备和计算机可读存储介质 | |
US9626383B2 (en) | Managing digital images | |
US20080033903A1 (en) | Methods and apparatuses for using location information | |
US8412731B2 (en) | File management method and system | |
US20050131902A1 (en) | File system and file transfer method between file sharing devices | |
US20080270436A1 (en) | Storing chunks within a file system | |
US20150339314A1 (en) | Compaction mechanism for file system | |
US9721382B2 (en) | Portable globe creation for geographical information system | |
JP2005018754A (ja) | 関連付けを有するコンピュータオブジェクトの共有 | |
JP5924209B2 (ja) | バックアップ制御プログラム、バックアップ制御方法および情報処理装置 | |
US9183212B2 (en) | Representing directory structure in content-addressable storage systems | |
US9659023B2 (en) | Maintaining and using a cache of child-to-parent mappings in a content-addressable storage system | |
US6915299B1 (en) | Web server document library | |
JP5485997B2 (ja) | 重複排除機能付きデータ格納装置及び当該データ格納装置の検索インデックスを作成する制御装置 | |
US9690796B2 (en) | Non-transitory computer-readable media storing file management program, file management apparatus, and file management method | |
JP2016038784A (ja) | 情報処理装置、情報処理システム、バックアップ方法、およびプログラム | |
JP2015530629A (ja) | 移行先ファイルサーバ及びファイルシステム移行方法 | |
CN109284273B (zh) | 一种采用后缀数组索引的海量小文件查询方法及系统 | |
US20090254585A1 (en) | Method for Associating Administrative Policies with User-Definable Groups of Files | |
US9489380B2 (en) | Methods and apparatus for management of unconsciously captured documents | |
CN114328031B (zh) | 元数据组织方法、系统、存储介质及备份方法、检索方法 | |
JP2006031608A (ja) | 計算機、ストレージシステム、計算機が行うファイル管理方法、およびプログラム | |
CN116414935A (zh) | 一种基于Elastic Search的分布式搜索空间矢量数据的方法 | |
US6625614B1 (en) | Implementation for efficient access of extended attribute data | |
KR20180113720A (ko) | 유에스비 백업시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |