CN114461762A - 档案变更识别方法、装置、设备及存储介质 - Google Patents

档案变更识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114461762A
CN114461762A CN202210363203.1A CN202210363203A CN114461762A CN 114461762 A CN114461762 A CN 114461762A CN 202210363203 A CN202210363203 A CN 202210363203A CN 114461762 A CN114461762 A CN 114461762A
Authority
CN
China
Prior art keywords
file
current
archive
history
files
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210363203.1A
Other languages
English (en)
Inventor
李强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Clerware Technology Co ltd
Original Assignee
Shenzhen Clerware Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Clerware Technology Co ltd filed Critical Shenzhen Clerware Technology Co ltd
Priority to CN202210363203.1A priority Critical patent/CN114461762A/zh
Publication of CN114461762A publication Critical patent/CN114461762A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于数据安全技术领域,公开了一种档案变更识别方法、装置、设备及存储介质。本发明通过将待备份文件系统中遍历到的当前档案与历史记录表进行匹配,在所述当前档案与所述历史记录表匹配不成功时,根据所述当前档案的元数据与所述历史备份中的元数据进行档案变更识别,由于历史记录表中包括所述历史备份中的不变型档案的档案信息,故而只需将待备份文件系统中不变型档案之外的其他档案进行档案变更识别,与现有技术中需要枚举所有档案进行档案变更识别相比,能明显降低档案变更识别所消耗的资源与时长。

Description

档案变更识别方法、装置、设备及存储介质
技术领域
本发明涉及数据安全技术领域,尤其涉及一种档案变更识别方法、装置、设备及存储介质。
背景技术
随着互联网技术的发展,数据存储广泛应用于生产、办公、管理和经营等各个环节中,而数据安全对于人们而言,也越来越重要,为了应对可能出现的主机故障、系统错误、病毒攻击等原因导致的数据丢失,通常需要对存放数据的设备进行数据备份。
在进行数据备份时,完整备份会对全部档案创建数据副本。对于数据量很大,但是每天数据变更量较小的场景,每次都选择完整备份,不仅会大量浪费存储资源与计算资源,而且耗费大量时间、降低备份频率,最终增加复原点目标(Recovery Point Objective,RPO )指标。采用增量备份及差异备份能有效减少上述的资源浪费,且提高备份速率。目前市面几乎所有的备份软件都是支持这三种基本模式的,且增量备份及差异备份的应用非常广泛。
增量备份及差异备份的核心技术在于获知哪些档案发生变更。常见方案分为:跟踪变更与检测变更。在跟踪变更方案中,常见方案为:通过文件系统的变更通知特性或者附加过滤监控组件来跟踪变更的档案。但在分布式文件系统、网络文件系统等非本地文件系统中,大都没有变更通知特性,且难以附加过滤监控组件。在检测变更方案中,常见方案为:枚举文件系统所有档案,根据文件系统元数据中的最后变更时间,识别出变更档案。由于枚举档案与查询元数据,需要从存储上存放元数据的区域查询相关数据;显而易见在海量档案的情况下,该操作需要消耗大量的资源与时长;即便仅有少量档案发生变更,也需要枚举所有档案与查询其元数据。
发明内容
本发明的主要目的在于提供一种档案变更识别方法、装置、设备及存储介质,旨在解决现有技术中档案变更识别需要消耗大量的资源与时长的技术问题。
为实现上述目的,本发明提供一种档案变更识别方法,所述档案变更识别方法包括以下步骤:
对待备份文件系统中的档案进行遍历,并将遍历到的档案作为当前档案;
将所述当前档案与历史备份中的历史记录表进行匹配,所述历史记录表中包括所述历史备份中的不变型档案的档案信息;
在所述当前档案与所述历史记录表匹配不成功时,根据所述当前档案的元数据与所述历史备份中的元数据进行档案变更识别。
可选地,所述在所述当前档案与所述历史记录表匹配不成功时,根据所述当前档案的元数据与所述历史备份中的元数据进行档案变更识别之后,所述方法还包括:
在档案变更识别结果为具有变更时,对所述当前档案进行备份;
判断所述当前档案是否为不变型档案;
在所述当前档案为不变型档案时,将所述当前档案的档案信息合并至所述历史记录表中。
可选地,所述判断所述当前档案是否为不变型档案,包括:
获取所述当前档案的档案路径;
判断所述档案路径中是否存在预设格式的关键词;
在存在预设格式的关键词时,基于所述关键词判断所述当前档案是否为不变型档案。
可选地,所述预设格式包括时间属性格式、序号格式及档案数量格式;
所述在存在预设格式的关键词时,基于所述关键词判断所述当前档案是否为不变型档案,包括:
在存在时间属性格式的关键词时,基于所述关键词与当前时刻判断所述当前档案是否为不变型档案;
在存在序号格式的关键词时,基于所述关键词与档案最后修改时刻判断所述当前档案是否为不变型档案;
在存在档案数量格式的关键词时,基于所述关键词与档案所属父档案内的档案数量阈值判断所述当前档案是否为不变型档案。
可选地,所述判断所述档案路径中是否存在预设格式的关键词之后,所述方法还包括:
在不存在预设格式的关键词时,基于档案最后修改时刻与当前时刻判断所述当前档案是否为不变型档案。
可选地,所述档案信息为档案路径;
所述将所述当前档案的档案信息合并至所述历史记录表中,包括:
判断所述历史记录表中是否存在与所述当前档案同属一父档案的兄弟档案;
在不存在与所述当前档案同属一父档案的兄弟档案时,将所述当前档案的档案路径添加至所述历史记录表中;
在存在与所述当前档案同属一父档案的兄弟档案时,判断所述兄弟档案是否均为不变型档案;
当所述兄弟档案均为不变型档案时,将所述当前档案的父档案的档案路径添加至所述历史记录表中,并将所述兄弟档案从所述历史记录表中删除。
可选地,所述将所述当前档案与历史备份中的历史记录表进行匹配,包括:
将所述当前档案的档案路径与历史备份中的历史记录表进行比较;
在所述当前档案的档案路径属于所述历史记录表中档案路径的子集时,判定所述当前档案与历史备份中的历史记录表匹配成功;
在所述当前档案的档案路径不属于所述历史记录表中档案路径的子集时,判定所述当前档案与历史备份中的历史记录表匹配不成功。
此外,为实现上述目的,本发明还提供一种档案变更识别设备,所述档案变更识别设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的档案变更识别程序,所述档案变更识别程序配置为实现如上所述的档案变更识别方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有档案变更识别程序,所述档案变更识别程序被处理器执行时实现如上所述的档案变更识别方法的步骤。
此外,为实现上述目的,本发明还提供一种档案变更识别装置,所述档案变更识别装置包括:
档案遍历模块,用于对待备份文件系统中的档案进行遍历,并将遍历到的档案作为当前档案;
记录匹配模块,用于将所述当前档案与历史备份中的历史记录表进行匹配,所述历史记录表中包括所述历史备份中的不变型档案的档案信息;
变更识别模块,用于在所述当前档案与所述历史记录表匹配不成功时,根据所述当前档案的元数据与所述历史备份中的元数据进行档案变更识别。
本发明通过将待备份文件系统中遍历到的当前档案与历史记录表进行匹配,在所述当前档案与所述历史记录表匹配不成功时,根据所述当前档案的元数据与所述历史备份中的元数据进行档案变更识别,由于历史记录表中包括所述历史备份中的不变型档案的档案信息,故而只需将待备份文件系统中不变型档案之外的其他档案进行档案变更识别,与现有技术中需要枚举所有档案进行档案变更识别相比,能明显降低档案变更识别所消耗的资源与时长。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的档案变更识别设备结构示意图;
图2为本发明档案变更识别设备方法第一实施例的流程示意图;
图3为本发明档案变更识别设备方法第二实施例的流程示意图;
图4为本发明档案变更识别设备方法第三实施例的流程示意图;
图5为本发明档案变更识别设备装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
如图1所示,该档案变更识别设备可以包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对档案变更识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及档案变更识别程序。
在图1所示的档案变更识别设备中,网络接口1004主要用于与外部网络进行数据通信;用户接口1003主要用于接收用户的输入指令;所述档案变更识别设备通过处理器1001调用存储器1005中存储的档案变更识别程序,并执行以下操作:
对待备份文件系统中的档案进行遍历,并将遍历到的档案作为当前档案;
将所述当前档案与历史备份中的历史记录表进行匹配,所述历史记录表中包括所述历史备份中的不变型档案的档案信息;
在所述当前档案与所述历史记录表匹配不成功时,根据所述当前档案的元数据与所述历史备份中的元数据进行档案变更识别。
进一步地,处理器1001可以调用存储器1005中存储的档案变更识别程序,还执行以下操作:
在档案变更识别结果为具有变更时,对所述当前档案进行备份;
判断所述当前档案是否为不变型档案;
在所述当前档案为不变型档案时,将所述当前档案的档案信息合并至所述历史记录表中。
进一步地,处理器1001可以调用存储器1005中存储的档案变更识别程序,还执行以下操作:
获取所述当前档案的档案路径;
判断所述档案路径中是否存在预设格式的关键词;
在存在预设格式的关键词时,基于所述关键词判断所述当前档案是否为不变型档案。
进一步地,所述预设格式包括时间属性格式、序号格式及档案数量格式;处理器1001可以调用存储器1005中存储的档案变更识别程序,还执行以下操作:
在存在时间属性格式的关键词时,基于所述关键词与当前时刻判断所述当前档案是否为不变型档案;
在存在序号格式的关键词时,基于所述关键词与档案最后修改时刻判断所述当前档案是否为不变型档案;
在存在档案数量格式的关键词时,基于所述关键词与档案所属父档案内的档案数量阈值判断所述当前档案是否为不变型档案。
进一步地,处理器1001可以调用存储器1005中存储的档案变更识别程序,还执行以下操作:
在不存在预设格式的关键词时,基于档案最后修改时刻与当前时刻判断所述当前档案是否为不变型档案。
进一步地,所述档案信息为档案路径;处理器1001可以调用存储器1005中存储的档案变更识别程序,还执行以下操作:
判断所述历史记录表中是否存在与所述当前档案同属一父档案的兄弟档案;
在不存在与所述当前档案同属一父档案的兄弟档案时,将所述当前档案的档案路径添加至所述历史记录表中;
在存在与所述当前档案同属一父档案的兄弟档案时,判断所述兄弟档案是否均为不变型档案;
当所述兄弟档案均为不变型档案时,将所述当前档案的父档案的档案路径添加至所述历史记录表中,并将所述兄弟档案从所述历史记录表中删除。
进一步地,处理器1001可以调用存储器1005中存储的档案变更识别程序,还执行以下操作:
将所述当前档案的档案路径与历史备份中的历史记录表进行比较;
在所述当前档案的档案路径属于所述历史记录表中档案路径的子集时,判定所述当前档案与历史备份中的历史记录表匹配成功;
在所述当前档案的档案路径不属于所述历史记录表中档案路径的子集时,判定所述当前档案与历史备份中的历史记录表匹配不成功。
本实施例通过上述方案,通过将待备份文件系统中遍历到的当前档案与历史记录表进行匹配,在所述当前档案与所述历史记录表匹配不成功时,根据所述当前档案的元数据与所述历史备份中的元数据进行档案变更识别,由于历史记录表中包括所述历史备份中的不变型档案的档案信息,故而只需将待备份文件系统中不变型档案之外的其他档案进行档案变更识别,与现有技术中需要枚举所有档案进行档案变更识别相比,能明显降低档案变更识别所消耗的资源与时长。
基于上述硬件结构,提出本发明档案变更识别方法实施例。
参照图2,图2为本发明档案变更识别方法第一实施例的流程示意图。
在第一实施例中,所述档案变更识别方法包括以下步骤:
S10:对待备份文件系统中的档案进行遍历,并将遍历到的档案作为当前档案。
需要说明的是,所述待备份文件系统即为需要对其进行备份的文件系统,在文件系统中通常具有若干用于保存数据的档案。
可理解的是,为了保证所有档案均会被选中,故而,需要对所述待备份文件系统中的档案进行遍历,而遍历到的档案会作为当前档案,当然,这个遍历的过程是一个持续进行的过程,待备份文件系统中的每个档案都会依次被遍历到,也就是说,当前档案这个对象是会不断变化的。
S20:将所述当前档案与历史备份中的历史记录表进行匹配,所述历史记录表中包括所述历史备份中的不变型档案的档案信息。
在具体实现中,所述不变型档案即为档案中的数据在晚于某个时间点后不再发生变化,也就是说,其具有不变特性。
S30:在所述当前档案与所述历史记录表匹配不成功时,根据所述当前档案的元数据与所述历史备份中的元数据进行档案变更识别。
可理解的是,在所述当前档案与所述历史记录表匹配不成功时,即可理解为不能立刻确定当前档案是不变型档案,需要通过元数据分析,判断该档案是否发生变更,故而,需要根据所述当前档案的元数据与所述历史备份中的元数据进行档案变更识别。
当然,在所述当前档案与所述历史记录表匹配成功时,可理解为所述当前档案属于不变型档案,在逻辑上,认为其不会再发生变更,可不进行后续的档案变更识别。
通常来说,档案通常包括数据和元数据。数据指的是文件中的实际数据,而元数据是指用来描述一个文件特征的系统数据,例如:存储路径、大小、类型、访问权限、拥有者及修改时间等等。
在具体实现中,在根据所述当前档案的元数据与所述历史备份中的元数据进行档案变更识别时,可通过元数据中的存储路径、档案大小、最后修改时间等信息通过存储路径与档案大小结合、或者是存储路径与最后修改时间的方式来确认当前文档是否存在档案变更识别,例如:遍历到的一个档案A,其存储路径为/xxx/yyy/,大小为1M,最后修改时间为2021年12月15日,若档案A在历史备份中,其存储路径为/xxx/yyy/,大小为1.3M,最后修改时间为2021年12月7日,此时,在存储路径一致的情况下,无论通过大小,还是最后修改时间都可识别出该档案存在变更,当然,还可通过元数据中的其他参数来判断,本实施例对此不加以限制。
需要说明的是,对于增量备份及差异备份而言,在开始进行一次完整备份后,后续每次生成的备份点通常只包括增量数据或差异数据,而所述历史备份即包括当前时刻之前所有备份点的备份数据,假设完整备份的备份数据为B0,后续进行了5次增量备份,增量数据分别为B1、B2、B3、B4和B5,此时,所述历史备份即为由B0、B1、B2、B3、B4和B5共同组成的备份数据。
本实施例通过将待备份文件系统中遍历到的当前档案与历史记录表进行匹配,在所述当前档案与所述历史记录表匹配不成功时,根据所述当前档案的元数据与所述历史备份中的元数据进行档案变更识别,由于历史记录表中包括所述历史备份中的不变型档案的档案信息,故而只需将待备份文件系统中不变型档案之外的其他档案进行档案变更识别,与现有技术中需要枚举所有档案进行档案变更识别相比,能明显降低档案变更识别所消耗的资源与时长。
参照图3,图3为本发明档案变更识别方法第二实施例的流程示意图,基于上述图2所示的实施例,提出本发明档案变更识别方法的第二实施例。
在第二实施例中,步骤S30之后,所述方法还包括:
S40:在档案变更识别结果为具有变更时,对所述当前档案进行备份。
需要说明的是,在档案变更识别结果为具有变更时,可认为当前档案属于本地备份时需要备份的对象,故而,需要对所述当前档案进行备份。
S50:判断所述当前档案是否为不变型档案。
可理解的是,对于当前档案而言,虽然其与上一次备份相比存在了变更,但部分档案可能后续就不会再改变,故而,还需要判断所述当前档案是否为不变型档案。
由于档案路径中通常能够反映当前档案的特性,故而,在具体实现中,本实施例可先获取所述当前档案的档案路径,然后判断所述档案路径中是否存在预设格式的关键词,在存在预设格式的关键词时,基于所述关键词判断所述当前档案是否为不变型档案。
为提高判断是否存在关键词的效率,本实施例中,在判断所述档案路径中是否存在预设格式的关键词时,可通过正则表达式来匹配是否存在预设格式的关键词。
需要说明的是,能够反映当前档案特征的预设格式可以包括:时间属性格式、序号格式及档案数量格式,当然,还可包括其他格式,本实施例对此不加以限制。
当预设格式为时间属性格式时,也就是说,其属于在某时刻后不再发生数据变更的档案。
例如:备份时刻为2020年8月3日,某日志系统存储的档案路径如下:
├── 2020-01
├── 2020-02
├── 2020-03
├── 2020-04
├── 2020-05
├── 2020-06
├── 2020-07
└── 2020-08
├── 01
├── 02
└── 03
此时,除档案路径./2020-08/03的档案不属于不变型档案之外,其余档案路径的档案都属于不变型档案。
故而,可基于所述关键词与当前时刻判断所述当前档案是否为不变型档案。
当预设格式为序号格式时,也就是说,其有可能属于不再发生数据变更的档案,例如:档案路径中具有类似于000000,000001,……,nnnnnn的序号,此时,可结合其档案最后修改时刻来预估该档案路径中各档案是否具有变更过,若不存在变更,则可认定其属于不变型档案。
故而,可基于所述关键词与档案最后修改时刻判断所述当前档案是否为不变型档案。
当预设格式为档案数量格式时,也就是说,其有可能属于不再发生数据变更的档案,例如:01,02,03,04,nn等,若档案所属父档案具有档案数量阈值,此时,可判断关键词是否达到该档案数量阈值,如果达到该档案数量阈值,则可认定其属于不变型档案。
故而,可基于所述关键词与档案所属父档案内的档案数量阈值判断所述当前档案是否为不变型档案。
当然,以上的三种情况都是针对存在预设格式的关键词,但在其他实现过程中,会出现不存在预设格式的关键词的情况,此时,可基于档案最后修改时刻与当前时刻判断所述当前档案是否为不变型档案。
例如:比较档案最后修改时刻与当前时刻之间的差值,在差值超过一定时长时,可判定当前档案属于不变型档案。
可理解的是,对于所述历史记录表而言,其第一次生成可在进行完整备份时生成的,即对待备份文件系统进行完整备份时,同样采用上述方式对文件进行遍历判断,基于判断出的不变型档案的档案信息生成历史记录表。
S60:在所述当前档案为不变型档案时,将所述当前档案的档案信息合并至所述历史记录表中。
需要说明的是,为了保证历史记录表中的信息是最新的,故而,在所述当前档案为不变型档案时,将所述当前档案的档案信息合并至所述历史记录表中。
参照图4,图4为本发明档案变更识别方法第三实施例的流程示意图,基于上述图3所示的实施例,提出本发明档案变更识别方法的第三实施例。
在第三实施例中,所述档案信息为档案路径;
步骤S60中,将所述当前档案的档案信息合并至所述历史记录表中,包括:
S61:判断所述历史记录表中是否存在与所述当前档案同属一父档案的兄弟档案。
在具体实现中,假设当前档案的档案路径为/xxx/yyy/zzz/,此时,路径/xxx/yyy/下的子档案均可认定为与当前档案同属一父档案的兄弟档案,例如:/xxx/yyy/cc/、/xxx/yyy/dd/、/xxx/yyy/vvv/等。
S62:在不存在与所述当前档案同属一父档案的兄弟档案时,将所述当前档案的档案路径添加至所述历史记录表中。
需要说明的是,在不存在与所述当前档案同属一父档案的兄弟档案时,说明其并没有可以合并的对象,此时,可直接将所述当前档案的档案路径添加至所述历史记录表中。
S63:在存在与所述当前档案同属一父档案的兄弟档案时,判断所述兄弟档案是否均为不变型档案。
S64:当所述兄弟档案均为不变型档案时,将所述当前档案的父档案的档案路径添加至所述历史记录表中,并将所述兄弟档案从所述历史记录表中删除。
可理解的是,在存在与所述当前档案同属一父档案的兄弟档案时,说明其可能具有可以合并的对象(即同属一父档案的兄弟档案),但需要保证所有兄弟档案均为不变型档案,此时才能将所述当前档案与所述兄弟档案进行合并,假设当前档案的档案路径为/xxx/yyy/zzz/,此时,与所述当前档案同属一父档案的兄弟档案具有3个,且档案路径分别为/xxx/yyy/cc/、/xxx/yyy/dd/、以及/xxx/yyy/vvv/,若这三个兄弟档案都已经存在于历史记录表中,也就是说,这三个兄弟档案都属于不变型档案,因此,可将所述当前档案的父档案的档案路径添加至所述历史记录表中,并将所述兄弟档案从所述历史记录表中删除,也就是说,将档案路径/xxx/yyy/添加至历史记录表中,而将/xxx/yyy/cc/、/xxx/yyy/dd/、以及/xxx/yyy/vvv/这些档案路径从所述历史记录表中删除,相当于只需要记录/xxx/yyy/这一条记录。
通过上述合并的方式,能够获得以下两个有益效果:
1、增量备份时,需要的历史记录表中不仅仅含有前一次增量备份记录的“不变型档案的档案路径”,还需要包含与其关联的所有完整备份及其增量备份中分析得到的“不变型档案的档案路径”,所以需要将上述记录都合并到一份历史记录表中,方便处理。
2、因为在备份过程中会不断查询历史记录表中的信息,所以历史记录表的大小会影响到处理效率,历史记录表越小检索效率越高。通过上述合并规则,可减少历史记录表中的冗余记录。
需要说明的是,根据上述说明可知,对于历史记录表中的档案路径而言,其可能会存在合并的情况,故而,在步骤S20包括:将所述当前档案的档案路径与历史备份中的历史记录表进行比较;在所述当前档案的档案路径属于所述历史记录表中档案路径的子集时,判定所述当前档案与历史备份中的历史记录表匹配成功;在所述当前档案的档案路径不属于所述历史记录表中档案路径的子集时,判定所述当前档案与历史备份中的历史记录表匹配不成功。
例如:在下轮备份中,当前档案的档案路径为/xxx/yyy/vvv/时,如果历史记录表中档案路径包括/xxx/yyy/,那么可确定所述当前档案的档案路径属于所述历史记录表中档案路径的子集,可判定所述当前档案与历史备份中的历史记录表匹配成功,会将所述当前档案确定为不变型档案。
假设某单位业务系统每天都会产生大量系统日志,这些日志文件的存档结构是按照如下结构进行存放:/xxx省/xxx市/xxx区(县)/xxx乡/xxx镇/xxx部门/2020/05/10/。业务系统运转一定年限,该类型的文件数量累计达上亿规模。使用传统方案进行文件备份,枚举分析所有文件,效率非常低,备份时间都是按天计算。使用本实施例提供的方案能有效减少需要分析和备份的档案数量,减少时间消耗,大幅提升备份的速率。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有档案变更识别程序,所述档案变更识别程序被处理器执行时实现如下操作:
对待备份文件系统中的档案进行遍历,并将遍历到的档案作为当前档案;
将所述当前档案与历史备份中的历史记录表进行匹配,所述历史记录表中包括所述历史备份中的不变型档案的档案信息;
在所述当前档案与所述历史记录表匹配不成功时,根据所述当前档案的元数据与所述历史备份中的元数据进行档案变更识别。
本实施例的档案变更识别程序还可用于实现上述档案变更识别方法的各步骤,在此不再赘述。
此外,本发明实施例还提出一种档案变更识别装置,参照图5,所述装置包括:
档案遍历模块501,用于对待备份文件系统中的档案进行遍历,并将遍历到的档案作为当前档案;
记录匹配模块502,用于将所述当前档案与历史备份中的历史记录表进行匹配,所述历史记录表中包括所述历史备份中的不变型档案的档案信息;
变更识别模块503,用于在所述当前档案与所述历史记录表匹配不成功时,根据所述当前档案的元数据与所述历史备份中的元数据进行档案变更识别。
本实施例的各模块还可用于实现上述档案变更识别方法的各步骤,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种档案变更识别方法,其特征在于,所述档案变更识别方法包括以下步骤:
对待备份文件系统中的档案进行遍历,并将遍历到的档案作为当前档案;
将所述当前档案与历史备份中的历史记录表进行匹配,所述历史记录表中包括所述历史备份中的不变型档案的档案信息;
在所述当前档案与所述历史记录表匹配不成功时,根据所述当前档案的元数据与所述历史备份中的元数据进行档案变更识别。
2.如权利要求1所述的档案变更识别方法,其特征在于,所述在所述当前档案与所述历史记录表匹配不成功时,根据所述当前档案的元数据与所述历史备份中的元数据进行档案变更识别之后,所述方法还包括:
在档案变更识别结果为具有变更时,对所述当前档案进行备份;
判断所述当前档案是否为不变型档案;
在所述当前档案为不变型档案时,将所述当前档案的档案信息合并至所述历史记录表中。
3.如权利要求2所述的档案变更识别方法,其特征在于,所述判断所述当前档案是否为不变型档案,包括:
获取所述当前档案的档案路径;
判断所述档案路径中是否存在预设格式的关键词;
在存在预设格式的关键词时,基于所述关键词判断所述当前档案是否为不变型档案。
4.如权利要求3所述的档案变更识别方法,其特征在于,所述预设格式包括时间属性格式、序号格式及档案数量格式;
所述在存在预设格式的关键词时,基于所述关键词判断所述当前档案是否为不变型档案,包括:
在存在时间属性格式的关键词时,基于所述关键词与当前时刻判断所述当前档案是否为不变型档案;
在存在序号格式的关键词时,基于所述关键词与档案最后修改时刻判断所述当前档案是否为不变型档案;
在存在档案数量格式的关键词时,基于所述关键词与档案所属父档案内的档案数量阈值判断所述当前档案是否为不变型档案。
5.如权利要求3所述的档案变更识别方法,其特征在于,所述判断所述档案路径中是否存在预设格式的关键词之后,所述方法还包括:
在不存在预设格式的关键词时,基于档案最后修改时刻与当前时刻判断所述当前档案是否为不变型档案。
6.如权利要求2~5中任一项所述的档案变更识别方法,其特征在于,所述档案信息为档案路径;
所述将所述当前档案的档案信息合并至所述历史记录表中,包括:
判断所述历史记录表中是否存在与所述当前档案同属一父档案的兄弟档案;
在不存在与所述当前档案同属一父档案的兄弟档案时,将所述当前档案的档案路径添加至所述历史记录表中;
在存在与所述当前档案同属一父档案的兄弟档案时,判断所述兄弟档案是否均为不变型档案;
当所述兄弟档案均为不变型档案时,将所述当前档案的父档案的档案路径添加至所述历史记录表中,并将所述兄弟档案从所述历史记录表中删除。
7.如权利要求6所述的档案变更识别方法,其特征在于,所述将所述当前档案与历史备份中的历史记录表进行匹配,包括:
将所述当前档案的档案路径与历史备份中的历史记录表进行比较;
在所述当前档案的档案路径属于所述历史记录表中档案路径的子集时,判定所述当前档案与历史备份中的历史记录表匹配成功;
在所述当前档案的档案路径不属于所述历史记录表中档案路径的子集时,判定所述当前档案与历史备份中的历史记录表匹配不成功。
8.一种档案变更识别设备,其特征在于,所述档案变更识别设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的档案变更识别程序,所述档案变更识别程序配置为实现如权利要求1至7中任一项所述的档案变更识别方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有档案变更识别程序,所述档案变更识别程序被处理器执行时实现如权利要求1至7中任一项所述的档案变更识别方法的步骤。
10.一种档案变更识别装置,其特征在于,所述档案变更识别装置包括:
档案遍历模块,用于对待备份文件系统中的档案进行遍历,并将遍历到的档案作为当前档案;
记录匹配模块,用于将所述当前档案与历史备份中的历史记录表进行匹配,所述历史记录表中包括所述历史备份中的不变型档案的档案信息;
变更识别模块,用于在所述当前档案与所述历史记录表匹配不成功时,根据所述当前档案的元数据与所述历史备份中的元数据进行档案变更识别。
CN202210363203.1A 2022-04-08 2022-04-08 档案变更识别方法、装置、设备及存储介质 Pending CN114461762A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210363203.1A CN114461762A (zh) 2022-04-08 2022-04-08 档案变更识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210363203.1A CN114461762A (zh) 2022-04-08 2022-04-08 档案变更识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114461762A true CN114461762A (zh) 2022-05-10

Family

ID=81418405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210363203.1A Pending CN114461762A (zh) 2022-04-08 2022-04-08 档案变更识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114461762A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117033738A (zh) * 2023-10-07 2023-11-10 广东省信息工程有限公司 一种基于区块链的数字档案管理方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050060356A1 (en) * 2003-09-12 2005-03-17 Hitachi, Ltd. Backup system and method based on data characteristics
WO2012170235A2 (en) * 2011-06-08 2012-12-13 Microsoft Corporation Storage architecture for backup application
CN108446315A (zh) * 2018-02-07 2018-08-24 中国平安人寿保险股份有限公司 大数据迁移方法、装置、设备及存储介质
CN109858866A (zh) * 2018-12-03 2019-06-07 国网江苏省电力有限公司 人事档案文件形成方法及系统
CN113141406A (zh) * 2021-04-23 2021-07-20 北京市商汤科技开发有限公司 档案处理方法、装置、服务器及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050060356A1 (en) * 2003-09-12 2005-03-17 Hitachi, Ltd. Backup system and method based on data characteristics
WO2012170235A2 (en) * 2011-06-08 2012-12-13 Microsoft Corporation Storage architecture for backup application
CN108446315A (zh) * 2018-02-07 2018-08-24 中国平安人寿保险股份有限公司 大数据迁移方法、装置、设备及存储介质
CN109858866A (zh) * 2018-12-03 2019-06-07 国网江苏省电力有限公司 人事档案文件形成方法及系统
CN113141406A (zh) * 2021-04-23 2021-07-20 北京市商汤科技开发有限公司 档案处理方法、装置、服务器及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117033738A (zh) * 2023-10-07 2023-11-10 广东省信息工程有限公司 一种基于区块链的数字档案管理方法及系统
CN117033738B (zh) * 2023-10-07 2023-12-08 广东省信息工程有限公司 一种基于区块链的数字档案管理方法及系统

Similar Documents

Publication Publication Date Title
WO2021051531A1 (zh) 处理多集群作业记录的方法、装置、设备及存储介质
CN102741803B (zh) 用于促进数据发现的系统和方法
RU2544752C2 (ru) Конвейер классификации данных, включающий в себя правила автоматической классификации
US9400733B2 (en) Pattern matching framework for log analysis
AU2013329525C1 (en) System and method for recursively traversing the internet and other sources to identify, gather, curate, adjudicate, and qualify business identity and related data
RU2436152C2 (ru) Извещения поиска значительных изменений
CN111209256A (zh) 一种文件监控方法、装置、电子设备及存储介质
CN111782707A (zh) 一种数据查询方法及系统
WO2004066086A2 (en) Identifying similarities and history of modification within large collections of unstructured data
CN112115105A (zh) 一种业务处理方法、装置及设备
CN114461762A (zh) 档案变更识别方法、装置、设备及存储介质
CN114969840A (zh) 数据防泄漏方法和装置
EP3343395B1 (en) Data storage method and apparatus for mobile terminal
CN116303628B (zh) 基于Elasticsearch的告警数据查询方法、系统及设备
CN112052259A (zh) 数据处理方法、装置、设备及计算机存储介质
CN113821630A (zh) 一种数据聚类的方法和装置
US9734195B1 (en) Automated data flow tracking
US20130297576A1 (en) Efficient in-place preservation of content across content sources
CN111045983B (zh) 核电站电子文件管理方法、装置、终端设备及介质
CN112612817A (zh) 数据处理方法、装置、终端设备及计算机可读存储介质
US20160364813A1 (en) System for creating a linkage family tree including non-requested entities and detecting changes to the tree via an intelligent change detection system
CN114817929B (zh) 物联网漏洞动态追踪和处理方法、装置、电子设备及介质
CN111221742B (zh) 一种测试案例的更新方法、装置、存储介质和服务器
CN115374087A (zh) 数据库变更风险分析方法、装置、设备及可读存储介质
CN114968575A (zh) 一种基于异步任务的防重复消费的方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220510

RJ01 Rejection of invention patent application after publication