CN109522160B - 通过保存文件信息摘要进行文件目录比较备份方法和系统 - Google Patents

通过保存文件信息摘要进行文件目录比较备份方法和系统 Download PDF

Info

Publication number
CN109522160B
CN109522160B CN201811441116.3A CN201811441116A CN109522160B CN 109522160 B CN109522160 B CN 109522160B CN 201811441116 A CN201811441116 A CN 201811441116A CN 109522160 B CN109522160 B CN 109522160B
Authority
CN
China
Prior art keywords
file
information
directory
disk
backup
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811441116.3A
Other languages
English (en)
Other versions
CN109522160A (zh
Inventor
陈勇铨
胡军擎
周华
吕爱民
高志会
连恒
甘磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yingfang Software Co ltd
Original Assignee
Shanghai Yingfang Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yingfang Software Co ltd filed Critical Shanghai Yingfang Software Co ltd
Priority to CN201811441116.3A priority Critical patent/CN109522160B/zh
Publication of CN109522160A publication Critical patent/CN109522160A/zh
Application granted granted Critical
Publication of CN109522160B publication Critical patent/CN109522160B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种通过保存文件信息摘要进行文件目录比较备份方法和系统,涉及计算机数据备份的技术领域,包括获取信息摘要文件;根据信息摘要文件中的各个记录信息,查找磁盘中相对应的各个目标目录;将各个目标目录下的第一文件摘要信息与信息摘要文件的各个第二文件摘要信息进行差异比较,根据比较情况,生成相应的各个通知日志;根据通知日志,进行各个相应备份操作,无需对备份目录文件进行扫描,减少差异比较的时间并减轻备份服务器的磁盘IO的负担。

Description

通过保存文件信息摘要进行文件目录比较备份方法和系统
技术领域
本发明涉及计算机数据备份技术领域,尤其是涉及通过保存文件信息摘要进行文件目录比较备份方法和系统。
背景技术
基于文件系统差异比较与备份是指通过比较文件系统中磁盘目录和备份目录中文件的差异,将差异的文件或差异的文件片段同步到备份目录的备份方法,磁盘目录和备份目录通常在不同的计算机上。
当前,基于文件系统差异比较与备份通常的做法是通过分别扫描文件系统中磁盘目录和备份目录的目录结构及文件信息进行比较,找出差异的文件,再进行目录结构和文件内容的同步。该方案的缺点是当目录内子目录和文件数量较多时,需要花费较长的扫描时间,磁盘和备份计算机间交互的扫描信息也较多,如果应用于一台备份计算机同时对应有多个磁盘计算机的应用场景,那么扫描备份目录会给磁盘IO带来沉重的的负担。
发明内容
有鉴于此,本发明的目的在于提供通过保存文件信息摘要进行文件目录比较备份方法和系统,无需对备份目录文件进行扫描,减少差异比较的时间并减轻备份服务器的磁盘IO的负担。
第一方面,本发明实施例提供了一种通过保存文件信息摘要进行文件目录比较备份方法,包括:
获取磁盘目录信息和信息摘要文件;
根据所述信息摘要文件中的各个记录信息,查找所述磁盘目录信息中相对应的各个目标目录;
将所述各个目标目录下的第一文件摘要信息与所述信息摘要文件的各个第二文件摘要信息进行差异比较,根据比较情况,生成相应的各个通知日志;
根据所述通知日志,进行各个相应备份操作。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述根据所述信息摘要文件中的各个记录信息,查找磁盘中相对应的各个目标目录,包括重复或并发执行以下处理,直至所述信息摘要文件中的所述记录信息都被遍历:
获取所述信息摘要文件中的第i个记录信息,其中,i大于且等于1;
根据所述第i个记录信息在查找所述磁盘目录信息中查找相对应的所述目标目录,所述第i个记录信息包括有与所述目标目录相一致的目录路径。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述将所述各个目标目录下的第一文件摘要信息与所述信息摘要文件的各个第二文件摘要信息进行差异比较,根据比较情况,生成相应的各个通知日志包括重复或并发执行以下步骤,直至所述磁盘中的所述各个目标目录都被遍历:
将所述磁盘目录信息中的第j个目标目录下的第一文件摘要信息,与所述信息摘要文件的各个第二文件摘要信息进行差异比较,根据比较情况,生成相应的各个通知日志,其中,所述目标目录与所述记录信息中的目录路径相一致,j大于且等于1。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述文件摘要信息包括文件目录名称、属性和信息摘要算法MD5值中的一种或多种,所述属性的类型包括文件和目录,所述将所述磁盘目录信息中的第j个目标目录下的第一文件摘要信息,与所述信息摘要文件的各个第二文件摘要信息进行差异比较,根据比较情况,生成相应的各个通知日志包括:
根据所述磁盘目录信息中的第j个目标目录下的第一文件目录名称查找所述信息摘要文件中相对应的第二文件目录名称,其中,第一文件目录名称与所述第一文件摘要信息相对应,第二文件目录名称与所述第二文件摘要信息相对应;
若找到,且所述属性的类型为文件的情况下,将第一文件摘要信息与第二文件摘要信息中对应的属性和/或信息摘要算法MD5值进行差异比较;
在比较结果不同的情况下,生成差异文件的第一通知日志。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述将所述磁盘目录信息中的第j个目标目录下的第一文件摘要信息,与所述信息摘要文件的各个第二文件摘要信息进行差异比较,根据比较情况,生成相应的各个通知日志还包括:
若根据所述磁盘目录信息中的第j个目标目录下的第一文件目录名称查找到所述信息摘要文件中相对应的第二文件目录名称,将与所述第二文件目录名称相对应的第二文件摘要信息从内存中进行删除;
根据所述内存中余下的第二文件摘要信息,生成删除文件的第二通知日志。
结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,所述将所述磁盘目录信息中的第j个目标目录下的第一文件摘要信息,与所述信息摘要文件的各个第二文件摘要信息进行差异比较,根据比较情况,生成相应的各个通知日志还包括:
若没找到,则于内存中进行新增操作。
结合第一方面,本发明实施例提供了第一方面的第六种可能的实施方式,其中,在所述根据所述信息摘要文件中的各个记录信息,查找所述磁盘目录信息中相对应的各个目录步骤之前,还包括:
读取所述信息摘要文件,判断所述信息摘要文件是否为空。
结合第一方面,本发明实施例提供了第一方面的第七种可能的实施方式,其中,所述方法还包括:
在所述信息摘要文件为空的情况下,于内存中进行新增操作。
结合第一方面,本发明实施例提供了第一方面的第八种可能的实施方式,其中,所述于内存中进行新增操作包括:
在所述第一文件摘要信息中的属性的类型为文件的情况下,生成新增文件的第三通知日志;
在所述第一文件摘要信息中的属性的类型为目录的情况下,于所述内存中构建新生记录信息,所述新生记录信息与所述第一文件摘要信息的目录路径相一致。
第二方面,本发明实施例还提供一种通过保存文件信息摘要进行文件目录比较备份系统,包括:
获取模块,用于获取磁盘目录信息和信息摘要文件;
查找模块,用于根据所述信息摘要文件中的各个记录信息,查找所述磁盘目录信息中相对应的各个目标目录;
比较模块,用于将所述各个目标目录下的第一文件摘要信息与所述信息摘要文件的各个第二文件摘要信息进行差异比较,根据比较情况,生成相应的各个通知日志;
备份模块,用于根据所述通知日志,进行各个相应备份操作。
本发明实施例提供了一种通过保存文件信息摘要进行文件目录比较备份方法和系统,把备份目录的信息摘要内容保存在磁盘计算机的一个信息摘要文件上,通过比较信息摘要文件中文件信息摘要内容与磁盘目录的子目录及文件比较,找出差异文件记录,同时进行同步备份,无需对备份目录文件进行扫描,减少差异比较的时间并减轻备份服务器的磁盘IO的负担;
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的通过保存文件信息摘要进行文件目录比较备份方法流程图;
图2为本发明实施例提供的另一种通过保存文件信息摘要进行文件目录比较备份方法流程图;
图3为本发明实施例提供的信息摘要文件结构示意图;
图4为本发明实施例提供的第一次备份目录结构示意图;
图5为本发明实施例提供的第二次备份目录结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
当前,基于文件系统差异比较与备份通常的做法是通过分别扫描文件系统中磁盘目录和备份目录的目录结构及文件信息进行比较,找出差异的文件,再进行目录结构和文件内容的同步。该方案的缺点是当目录内子目录和文件数量较多时,需要花费较长的扫描时间,磁盘和备份计算机间交互的扫描信息也较多,如果应用于一台备份计算机同时对应有多个磁盘计算机的应用场景,那么扫描备份目录会给磁盘IO带来沉重的负担。
基于此,本发明实施例提供的一种通过保存文件信息摘要进行文件目录比较备份方法和系统,可以无需对备份目录文件进行扫描,不做扫描信息的网络通讯,减少差异比较的时间并减轻备份服务器的磁盘IO的负担。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种通过保存文件信息摘要进行文件目录比较备份方法进行详细介绍;
图1为本发明实施例提供的通过保存文件信息摘要进行文件目录比较备份方法流程图。
参考图1,通过保存文件信息摘要进行文件目录比较备份方法包括以下步骤:
步骤S110,获取磁盘目录信息和信息摘要文件;
步骤S120,根据信息摘要文件中的各个记录信息,查找磁盘目录信息中相对应的各个目标目录;
步骤S130,将各个目标目录下的第一文件摘要信息与信息摘要文件的各个第二文件摘要信息进行差异比较,根据比较情况,生成相应的各个通知日志;
步骤S140,根据通知日志,进行各个相应备份操作。
在实际应用的优选实施例中,把备份目录的信息摘要内容保存在磁盘计算机的一个信息摘要文件上,读取信息摘要文件并扫描磁盘,通过在内存中将信息摘要文件中文件信息摘要内容与磁盘目录的子目录及文件进行比较,找出差异文件记录,同时进行同步备份。
进一步的,在步骤S120根据信息摘要文件中的各个记录信息,查找磁盘目录信息中相对应的各个目录步骤之前,还包括:读取信息摘要文件,判断信息摘要文件是否为空,在信息摘要文件为空的情况下,于内存中进行新增操作。
如果信息摘要文件不存在或空,说明是备份目录是空的,把磁盘目录信息按新增处理,进行全备份操作;
其中,上述步骤中,于内存中进行新增操作包括:
步骤S210,在第一文件摘要信息中的属性的类型为文件的情况下,生成新增文件的第三通知日志;
步骤S220,在第一文件摘要信息中的属性的类型为目录的情况下,于内存中构建新生记录信息,新生记录信息与第一文件摘要信息的目录路径相一致。
进一步的,若能够获取到信息摘要文件中的内容,信息摘要文件不为空,上述实施例中步骤S120,包括重复或并发执行以下处理,直至信息摘要文件中的记录信息都被遍历:
步骤S310,获取信息摘要文件中的第i个记录信息,其中,i大于且等于1;
步骤S320,根据第i个记录信息查找磁盘目录信息中相对应的目标目录,第i个记录信息包括有与目标目录相一致的目录路径。
这里,每一条记录对应一个扫描查找任务,这些任务可以进行并发。
进一步的,上述实施例提供的步骤S130,包括重复或并发执行以下步骤,直至磁盘目录信息中的各个目标目录都被遍历:
步骤S410,将磁盘目录信息中的第j个目标目录下的第一文件摘要信息,与信息摘要文件的各个第二文件摘要信息进行差异比较,根据比较情况,生成相应的各个通知日志其中,目标目录与记录信息中的目录路径相一致,j大于且等于1。
进一步的,文件摘要信息包括文件目录名称、属性和信息摘要算法MD5值中的一种或多种;
需要说明的是,参照图3,打开本地保存的信息摘要文件,读取信息摘要文件的内容。每一条记录信息包括目录路径(完整路径)和文件摘要信息,整个信息摘要文件包括一条条这样的记录信息,记录信息的个数与备份目录及子目录的个数总和相等,每条记录信息都可完整的读出来。
这里,如果只比较修改时间和文件长度不用记录MD5值;
在实际应用的实施例中,每读出信息摘要文件的一条记录信息,增加一个磁盘扫描任务,任务的处理过程是:根据记录信息中的目录路径找到磁盘目录中对应的目标目录,会发生两种情形及相应的处理方式:
情形1,在磁盘目录中找不到与之对应的目标目录,说明该目标目录在磁盘目录中已被删除,不做处理,因为该目标目录被删除会在扫描它的父目录的任务中被发现。
情形2,在磁盘目录中找到与之对应的目标目录,参照下述实施例,把磁盘目录中对应的目录扫描出来的信息作为一条记录,记录到新的信息摘要文件中;
进一步的,属性的类型包括文件和目录,上述实施例中步骤S410包括:
步骤S510,根据磁盘目录信息中的第j个目标目录下的第一文件目录名称查找信息摘要文件中相对应的第二文件目录名称;
步骤S520,若找到,且属性的类型为文件的情况下,将第一文件摘要信息与第二文件摘要信息中对应的属性和/或信息摘要算法MD5值进行差异比较;
步骤S530,在比较结果不同的情况下,生成差异文件的通知日志;
步骤S540,若没找到,则于内存中进行新增操作。
具体地,扫描该文件系统目录下文件和子目录(扫描时不去递归子目录),通过文件和子目录名称(文件目录名称)在信息摘要文件中的记录信息对应的文件及子目录列表中进行查找。
如果找不到,说明是新增的。如果是文件,产生一条新增文件的通知日志。如果是目录,产生一条新增目录的通知日志,并以该目录路径构造一条新的记录信息(新生记录信息),该记录的文件和子目录列表为空,并增加一个并发的扫描任务,该任务执行参考上述实施例中的步骤S510。
如果找到,当当前文件摘要信息对应的属性的类型为文件时,比较属性(访问时间属性忽略)、文件大小及MD5值(严格校验时才需要比较MD5),当当前当前文件摘要信息对应的属性的类型为目录时,目录不需要比较,只要找到就按相同处理,比较结果如果相同,不做任何处理,如果不同,则产生一条差异文件的通知日志。
进一步的,上述实施例中步骤S410还包括:
若根据磁盘目录信息中的第j个目标目录下的第一文件目录名称查找到信息摘要文件中相对应的第二文件目录名称,将与第二文件目录名称相对应的第二文件摘要信息从内存中进行删除;
根据内存中余下的第二文件摘要信息,生成删除文件的通知日志。
在记录中的文件及子目录列表中每找到一个文件或目录就将其删除记录列表中删除,查找全部完成后,记录中的文件及子目录列表或许还会剩下一些文件或子目录,这些文件或子目录在现在磁盘目录文件系统中已经不存在,说明这些文件或子目录是被删除了,对应的产生删除文件或删除目录的通知日志;
需要说明的是,在上述实施例中会产生新增文件,新增目录,差异文件,删除文件,删除目录这五种通知日志,通知日志会交给备份模块,备份功能模块分别对五种通知日志做不同的处理。新增文件,对该文件做同步;新增目录,创建目录,同步属性;差异文件,比较差异,做增量同步;删除文件,备份目录删除该文件;删除目录,备份目录删除该目录下所有内容。
其中,备份模块对通知日志的处理是可并发的,且与上述实施例中步骤描述的扫描及差异比较过程同步进行。
这里,当差异比较和备份的任务都完成后,步骤中描述的新的信息摘要文件也已记录完整(在原信息摘要文件的基础上按照通知日志的操作形成的新信息摘要文件),将该文件替换旧的信息摘要文件。该信息摘要文件所记录的信息与扫描过程中磁盘目录的内容是一致,备份功能模块也已经对磁盘目录和备份目录中的内容做了同步,下次扫描时,利用该文件通过上述步骤就能发现哪些文件又发生了变化,并进行差异备份。
在实际应用过程中,基于文件系统的备份,一般会选择指定该文件系统中的某个或某些目录作为磁盘目录,目录的组织结构会以目录树的形式存在。如附图4例子所示,该例子中选择/Data目录作为磁盘目录,且第一次对此目录进行备份,因此还没有先前生成的信息摘要文件,结合本发明实施例,接下来,具体描述下是如何进行第一次全备份的;
以图4中“第一次备份时的目录结构”图的例子进行第一次全备份的实施过程如下:
首先,因为此时是第一次备份,所以打开信息摘要文件失败,根据上述实施例中全备份的方法,将磁盘目录作为新增目录来处理:将“/Data”作为新增目录路径,增加一个扫描目录的任务,传递给该任务的记录信息是“/Data”是目录路径,文件及子目录列表为空。
其次,开始执行“/Data”的扫描任务。按照本发明实施例的方法,“/Data”下的Dir1,Dir2,File1,File2,都在记录中空的文件及子目录列表中找到,所以Dir1,Dir2,File1,File2都是新增的。按照处理流程:File1,File2的属性类型是文件,会产生新增文件的通知日志;Dir1,Dir2的属性类型是目录,会产生新增目录的通知日志,并且分别将“/Data/Dir1”,“/Data/Dir2”作为新增目录路径,增加两个扫描目录的任务。扫描目录“/Data”完成,会形成一条以“/Data”为目录路径,Dir1,Dir2,File1,File2(包含文件摘要信息)为文件列表的记录信息,把该记录信息写到新的信息摘要文件中。备份模块对产生的通知日志做处理,启动相应的备份任务。
再次。上个步骤中添加的“/Data/Dir1”,“/Data/Dir2”的扫描任务也分别进行着,扫描方法与“/Data”相同。“/Data/Dir1”产生File1-1的新增文件的通知日志,形成一条以“/Data/Dir1”为目录路径,File1-1为文件列表的记录信息,并记录到新的信息摘要文件中。“/Data/Dir2”产生File2-1,File2-2的新增文件的通知日志,形成一条以“/Data/Dir2”为目录路径,File2-1,File2-2为文件列表的记录信息,并记录到新的信息摘要文件中。备份模块对产生的通知日志做处理,启动相应的备份任务。
最后。上述的扫描任务和备份任务都完成后,新的信息摘要文件已经完整的记录“/Data”目录下所有的信息摘要文件内容,如附图4“第一次扫描后得到的信息摘要表”所示。把新的信息摘要文件正式重命名成信息摘要文件,作为下一次扫描的信息摘要文件,第一次的全备份到此完成。
图5是第二次全备份的实例图,图5是在图4上的基础上发生了一些目录和文件的改变而得到的;
下面参考附图5,进一步描述下通过保存的信息摘要文件中的记录信息来做差异比较和备份的过程,过程如下:
首先。读取信息摘要文件,该文件正是第一次备份时等到的文件,内容如图5中的表格所示,一共有3条记录。按照上述本发明实施例方法,依次取出这三条记录,并增加三个目录扫描任务。
其次。当前的目录的已经从图4变化到图5,使用图4的记录表和图5的目录结构来描述下这三个目录扫描任务的处理过程。
信息摘要文件对应的第一条记录信息的扫描任务是“/Data”,(Dir1,Dir2,File1,File2),在文件系统目录中找到”/Data”,扫描其磁盘目录得到文件列表Dir3,Dir2,File1,与信息摘要文件对应的列表(Dir1,Dir2,File1,File2)比较,得到Dir3是新增,文件目录名称Dir2,File1相匹配,Dir1,File2只在信息摘要文件的记录信息中存在。Dir3新增,其属性类型是目录,按新增目录处理,产生新增目录的通知日志,并增加一个目录路径“/Data/Dir3”的扫描任务。Dir2名称匹配,因为属性类型是目录,直接跳过不处理。文件目录File1匹配,其属性类型是文件,比较文件的属性、大小及MD5相等,说明文件没变化,跳过不处理。Dir1,File2只在信息摘要文件对应的记录列表中存在,说明Dir1,File2在磁盘目录中已经被删除,分别产生删除目录和删除文件的日志通知。把当前磁盘目录中扫描到的文件信息摘要“/Data”,(Dir3,Dir2,File1)记录到新的信息摘要文件中。备份功能模块对产生的通知日志做处理,分别是新增目录Dir3,删除目录Dir1,删除文件File2。
信息摘要文件对应的第二条记录信息的扫描任务是“/Data/Dir1”,(File1-1),在磁盘文件系统目录中找不到,按照本发明实施例中的方法,不做任务处理退出该扫描任务。从第一条记录信息也就是其父目录“/Data”的扫描任务中已经知道“/Data/Dir1”目录路径被删除,所以这里不需要处理。
信息摘要文件对应的第三条记录信息的扫描任务是“/Data/Dir2”,(File2-1,File2-2),在磁盘文件系统目录中找到“/Data/Dir2”,得到其文件列表File2-1,File2-2,与列表(File2-1,File2-2)比较,文件目录名称File1,File2匹配,根据其属性类型为文件,比较属性、大小及MD5,发现File2-1相等,File2-2修改时间属性和大小不相等,说明File2-2被修改过,产生差异文件File2-2的通知日志。把当前扫描到的文件摘要信息“/Data/Dir2”,(File2-1,File2-2)记录到新的信息摘要文件中。备份模块对产生的通知日志做处理。
再次,在上个过程描述中第一条记录信息扫描任务中还增加了“/Data/Dir3”的目录扫描任务。这里的处理过程还是新增目录的处理过程,因此不再重复说明过程。
最后,扫描任务和备份任务都完成后,新的信息摘要文件已经完整的记录“/Data”目录下所有的文件摘要信息,如附图5“第二次扫描后得到的信息摘要表”所示。把新的信息摘要文件正式重命名成信息摘要文件,作为下一次扫描的信息摘要文件。第二次的全备份到此完成。
每一次备份,只需要对磁盘目录做一次扫描,而不需要对备份目录做扫描,所以磁盘和备份之间也不需要做扫描的同步和信息交互,极大提高了差异比较的效率。本发明的另一个特点是:扫描磁盘目录即差异比较的过程中目录之间,目录和子目录间的扫描任务都是并发,发现某个差异信息后立即通知备份功能模块,备份功能模块也是并发进行差异备份的,一般情况下可做到并发扫描完磁盘目录时备份也已经完成,极大提高了备份的效率。由于上述特点,本发明运用在备份文件和子目录个数非常多的海量文件或备份计算机是多对一的集中备份点的应用场景,所能体现的效能优势会更加明显。
进一步的,如图2所示,本发明实施例提供的另一种通过保存文件信息摘要进行文件目录比较备份方法包括以下步骤:
步骤S1,启动备份模块启动备份任务日志接收服务;
步骤S2,判断是否接收到通知日志,增加一个差异备份,在磁盘目录和备份目录间做差异备份,此时差异备份任务结束;
步骤S3,读取信息摘要文件,判断是否能够读出记录信息,若不能读出,跳转到步骤S4,若能读出,跳转到步骤S5;
步骤S4,若不能读出,等待所有扫描任务结束,等待所有备份任务结束,用新增操作后的新的信息摘要文件替换旧的,此时结束比较差异备份任务;
步骤S5,若能读出,添加对应的扫描目录任务;
步骤S6,判断在磁盘文件系统中是否能够找到该条记录信息中的目录路径,若不能找到,跳转步骤S7,若能找到,跳转步骤S8;
步骤S7,若不能找到,结束扫描目录任务;
步骤S8,若能找到,扫描该目标目录下的文件和子目录(文件摘要信息);
步骤S9,判断文件或子目录能否在信息摘要文件对应的记录列表中找到,若是,跳转步骤S10,若否跳转步骤;
步骤S10,若是,判断比较文件的属性和MD5值是否相同,若是,跳转步骤S11,若否,跳转步骤S12;
步骤S11,若相同,则在记录信息对应的文件摘要信息文件列表中删除此文件或子目录;
步骤S12,若不同,则生成差异文件的通知日志,并在记录信息对应的文件摘要信息文件列表中删除此文件或子目录;
步骤S13,判断该目录路径下是否还有文件或子目录,若还有,跳转到步骤S9;
步骤S14,若没有,判断在记录信息的文件摘要信息文件列表中是否还有文件或子目录,若是,跳转步骤S16,若否,跳转步骤S15;
步骤S15,若没有,将给磁盘目录信息的扫描信息作为新生记录信息写到新的信息摘要文件中;
步骤S16,若有,判断在文件列表中仍存在的属性类型是否为文件;
步骤S17,若是,则生成删除文件的通知日志,并跳转到步骤S14;
步骤S18,若否,则生成删除目录的通知日志,并跳转到步骤S14;
步骤S19,若否,判断不能被找到的属性类型是否为文件;
步骤S20,若是文件,则产生新增文件的通知日志,并跳转到步骤S9;
步骤S21,若不是文件,则产生新增目录的通知日志,跳转到步骤S9,并以该子目录为目录路径构造一条文件列表为空的新生记录信息,跳转到步骤S9;
本发明实施例通过保存扫描磁盘目录的过程中保留磁盘目录的文件信息摘要,并以设计巧妙的格式保存到一个文件,利用该文件在下次扫描时能够发现在在两次扫描的时间间隔内哪些文件或目录发生了变化,然后备份功能模块会使用这些变化信息做差异备份。
本发明实施例还提供通过保存文件信息摘要进行文件目录比较备份系统,包括:
获取模块,用于获取信息摘要文件;
查找模块,用于根据信息摘要文件中的各个记录信息,查找磁盘中相对应的各个目标目录;
比较模块,用于将各个目标目录下的第一文件摘要信息与信息摘要文件的各个第二文件摘要信息进行差异比较,根据比较情况,生成相应的各个通知日志;
备份模块,用于根据通知日志,进行各个相应备份操作。
本发明实施例提供的通过保存文件信息摘要进行文件目录比较备份系统,与上述实施例提供的通过保存文件信息摘要进行文件目录比较备份方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
本发明实施例所提供的基于文件系统目录差异比较与备份方法和系统的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例提供的基于文件系统目录差异比较与备份方法的步骤。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述实施例的基于文件系统目录差异比较与备份方法的步骤。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种通过保存文件信息摘要进行文件目录比较备份方法,其特征在于,包括:
获取磁盘目录信息和信息摘要文件,所述信息摘要文件存储有已备份文件的记录信息;
根据所述信息摘要文件中的各个记录信息,查找所述磁盘目录信息中相对应的各个目标目录;
将所述各个目标目录下的第一文件摘要信息与所述信息摘要文件的各个第二文件摘要信息进行差异比较,根据比较情况,生成相应的各个通知日志;
根据所述通知日志,进行各个相应备份操作,并更新所述信息摘要文件。
2.根据权利要求1所述的通过保存文件信息摘要进行文件目录比较备份方法,其特征在于,所述根据所述信息摘要文件中的各个记录信息,查找磁盘中相对应的各个目标目录,包括重复或并发执行以下处理,直至所述信息摘要文件中的所述记录信息都被遍历:
获取所述信息摘要文件中的第i个记录信息,其中,i大于且等于1;
根据所述第i个记录信息在所述磁盘目录信息中查找相对应的所述目标目录,所述第i个记录信息包括有与所述目标目录相一致的目录路径。
3.根据权利要求1所述的通过保存文件信息摘要进行文件目录比较备份方法,其特征在于,所述将所述各个目标目录下的第一文件摘要信息与所述信息摘要文件的各个第二文件摘要信息进行差异比较,根据比较情况,生成相应的各个通知日志包括重复或并发执行以下步骤,直至所述磁盘中的所述各个目标目录都被遍历:
将所述磁盘目录信息中的第j个目标目录下的第一文件摘要信息,与所述信息摘要文件的各个第二文件摘要信息进行差异比较,根据比较情况,生成相应的各个通知日志,其中,所述目标目录与所述记录信息中的目录路径相一致,j大于且等于1。
4.根据权利要求3所述的通过保存文件信息摘要进行文件目录比较备份方法,其特征在于,所述文件摘要信息包括文件目录名称、属性和信息摘要算法MD5值中的一种或多种,所述属性的类型包括文件和目录,所述将所述磁盘目录信息中的第j个目标目录下的第一文件摘要信息,与所述信息摘要文件的各个第二文件摘要信息进行差异比较,根据比较情况,生成相应的各个通知日志包括:
根据所述磁盘目录信息中的第j个目标目录下第一文件目录名称查找所述信息摘要文件中相对应的第二文件目录名称,其中,第一文件目录名称与所述第一文件摘要信息相对应,第二文件目录名称与所述第二文件摘要信息相对应;
若找到,且所述属性的类型为文件的情况下,将第一文件摘要信息与第二文件摘要信息中对应的属性和/或信息摘要算法MD5值进行差异比较;
在比较结果不同的情况下,生成差异文件的第一通知日志。
5.根据权利要求3所述的通过保存文件信息摘要进行文件目录比较备份方法,其特征在于,所述将所述磁盘目录信息中的第j个目标目录下的第一文件摘要信息,与所述信息摘要文件的各个第二文件摘要信息进行差异比较,根据比较情况,生成相应的各个通知日志还包括:
若根据所述磁盘目录信息中的第j个目标目录下的第一文件目录名称查找到所述信息摘要文件中相对应的第二文件目录名称,将与所述第二文件目录名称相对应的第二文件摘要信息从内存中进行删除;
根据所述内存中余下的第二文件摘要信息,生成删除文件的第二通知日志。
6.根据权利要求3所述的通过保存文件信息摘要进行文件目录比较备份方法,其特征在于,所述将所述磁盘目录信息中的第j个目标目录下的第一文件摘要信息,与所述信息摘要文件的各个第二文件摘要信息进行差异比较,根据比较情况,生成相应的各个通知日志还包括:
若没找到,则于内存中进行新增操作。
7.根据权利要求1所述的通过保存文件信息摘要进行文件目录比较备份方法,其特征在于,在所述根据所述信息摘要文件中的各个记录信息,查找所述磁盘目录信息中相对应的各个目录步骤之前,还包括:
读取所述信息摘要文件,判断所述信息摘要文件是否为空。
8.根据权利要求7所述的通过保存文件信息摘要进行文件目录比较备份方法,其特征在于,所述方法还包括:
在所述信息摘要文件为空的情况下,于内存中进行新增操作。
9.根据权利要求6或8所述的通过保存文件信息摘要进行文件目录比较备份方法,其特征在于,所述于内存中进行新增操作包括:
在所述第一文件摘要信息中的属性的类型为文件的情况下,生成新增文件的第三通知日志;
在所述第一文件摘要信息中的属性的类型为目录的情况下,于所述内存中构建新生记录信息,所述新生记录信息与所述第一文件摘要信息的目录路径相一致。
10.一种通过保存文件信息摘要进行文件目录比较备份系统,其特征在于,包括:
获取模块,用于获取磁盘目录信息和信息摘要文件,所述信息摘要文件存储有已备份文件的记录信息;
查找模块,用于根据所述信息摘要文件中的各个记录信息,查找所述磁盘目录信息中相对应的各个目标目录;
比较模块,用于将所述各个目标目录下的第一文件摘要信息与所述信息摘要文件的各个第二文件摘要信息进行差异比较,根据比较情况,生成相应的各个通知日志;
备份模块,用于根据所述通知日志,进行各个相应备份操作,并更新所述信息摘要文件。
CN201811441116.3A 2018-11-29 2018-11-29 通过保存文件信息摘要进行文件目录比较备份方法和系统 Active CN109522160B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811441116.3A CN109522160B (zh) 2018-11-29 2018-11-29 通过保存文件信息摘要进行文件目录比较备份方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811441116.3A CN109522160B (zh) 2018-11-29 2018-11-29 通过保存文件信息摘要进行文件目录比较备份方法和系统

Publications (2)

Publication Number Publication Date
CN109522160A CN109522160A (zh) 2019-03-26
CN109522160B true CN109522160B (zh) 2020-05-05

Family

ID=65793526

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811441116.3A Active CN109522160B (zh) 2018-11-29 2018-11-29 通过保存文件信息摘要进行文件目录比较备份方法和系统

Country Status (1)

Country Link
CN (1) CN109522160B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457083B (zh) * 2019-07-04 2023-07-18 深圳市中易通安全芯科技有限公司 一种芯片文件系统的启动方法及装置
CN110471796B (zh) * 2019-08-20 2024-01-23 同方知网数字出版技术股份有限公司 一种面向文件目录的完全和增量的备份恢复方法
CN110597778B (zh) * 2019-09-11 2022-04-22 北京宝兰德软件股份有限公司 一种分布式文件备份和监控的方法及装置
CN110908830A (zh) * 2019-10-18 2020-03-24 上海英方软件股份有限公司 一种通过数据库实现文件系统到对象存储差异比较与备份的方法
CN111177784A (zh) * 2019-12-31 2020-05-19 上海摩勤智能技术有限公司 一种文件系统的安全保护方法、装置及存储介质
CN112115110A (zh) * 2020-08-14 2020-12-22 南京航空航天大学 一种对文件进行编号的同步备份方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101282207A (zh) * 2008-06-05 2008-10-08 华为技术有限公司 数据更新的记录方法、装置和数据备份方法、系统
CN101833489B (zh) * 2010-05-06 2013-04-10 北京邮电大学 一种文件实时监控和智能备份的方法
CN104714864A (zh) * 2015-03-20 2015-06-17 成都云祺科技有限公司 一种计算机数据智能备份方法
CN104216806B (zh) * 2014-07-24 2016-04-06 上海英方软件股份有限公司 一种文件系统序列化操作日志的捕获与传输方法及其装置
CN106598785A (zh) * 2016-12-16 2017-04-26 广东美晨通讯有限公司 文件系统备份与还原的方法及装置
CN104281504B (zh) * 2014-10-30 2018-03-27 广东欧珀移动通信有限公司 一种基于md5码的应用程序数据备份还原的方法及系统
CN108804253A (zh) * 2017-05-02 2018-11-13 中国科学院高能物理研究所 一种用于海量数据备份的并行作业备份方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096615A (zh) * 2011-01-25 2011-06-15 上海爱数软件有限公司 远程增量备份方法及系统
CN104021132B (zh) * 2013-12-08 2017-08-22 郑州正信科技发展股份有限公司 主备数据库数据一致性核查备份方法及其系统
CN104573089A (zh) * 2015-01-29 2015-04-29 西安交通大学 一种NewSQL数据库中的增量式快照方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101282207A (zh) * 2008-06-05 2008-10-08 华为技术有限公司 数据更新的记录方法、装置和数据备份方法、系统
CN101833489B (zh) * 2010-05-06 2013-04-10 北京邮电大学 一种文件实时监控和智能备份的方法
CN104216806B (zh) * 2014-07-24 2016-04-06 上海英方软件股份有限公司 一种文件系统序列化操作日志的捕获与传输方法及其装置
CN104281504B (zh) * 2014-10-30 2018-03-27 广东欧珀移动通信有限公司 一种基于md5码的应用程序数据备份还原的方法及系统
CN104714864A (zh) * 2015-03-20 2015-06-17 成都云祺科技有限公司 一种计算机数据智能备份方法
CN106598785A (zh) * 2016-12-16 2017-04-26 广东美晨通讯有限公司 文件系统备份与还原的方法及装置
CN108804253A (zh) * 2017-05-02 2018-11-13 中国科学院高能物理研究所 一种用于海量数据备份的并行作业备份方法

Also Published As

Publication number Publication date
CN109522160A (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
CN109522160B (zh) 通过保存文件信息摘要进行文件目录比较备份方法和系统
US8548965B2 (en) Changed files list with time buckets for efficient storage management
US7213066B2 (en) Method and apparatus for electronic document management
US20140181030A1 (en) Identifying data items
CN106844102B (zh) 数据恢复方法和装置
JP4304194B2 (ja) ファイルシステム管理装置及び方法
CN102937924B (zh) 一种综合文件特征与文件系统的fat数据恢复方法
US10684923B2 (en) Real time file alteration sensing-based automatic backup device
JP2009522677A (ja) ノードの番号付けによるファイル・システムのダンプ/復元のための方法、システム、およびデバイス
JP5720366B2 (ja) ファイル管理システムおよびバックアップ方法
CN107220146B (zh) 一种文件扫描恢复方法及装置
CN110908830A (zh) 一种通过数据库实现文件系统到对象存储差异比较与备份的方法
US20220222146A1 (en) Versioned backup on an object addressable storage system
JP3985430B2 (ja) データベース管理装置及び方法
CN111176901B (zh) 一种hdfs删除文件恢复方法、终端设备及存储介质
US10061654B1 (en) Depth first search of summary change log records for backup
CN116401220A (zh) 文件系统的数据恢复方法、装置、设备及介质
CN115994124A (zh) 文件扫描方法、装置、电子设备和计算机可读存储介质
CN111698330B (zh) 存储集群的数据恢复方法、装置及服务器
EP4002143A1 (en) Storage of file system items related to a versioned snapshot of a directory-based file system onto a key-object storage system
EP3889753A1 (en) Data migration
CN114281769A (zh) 磁盘上文件管理方法、装置、计算机设备及存储介质
CN110109934B (zh) 一种数据库管理方法、装置、服务器及存储介质
CN113535482A (zh) 云备份链数据备份、管理方法及装置、设备、可读介质
CN108874592B (zh) 一种针对Log-structured存储引擎的数据冷备方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant