CN109408475B - 重复数据删除过程中的数据处理方法和系统 - Google Patents

重复数据删除过程中的数据处理方法和系统 Download PDF

Info

Publication number
CN109408475B
CN109408475B CN201811221893.7A CN201811221893A CN109408475B CN 109408475 B CN109408475 B CN 109408475B CN 201811221893 A CN201811221893 A CN 201811221893A CN 109408475 B CN109408475 B CN 109408475B
Authority
CN
China
Prior art keywords
data
file
superposition
volume
file data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811221893.7A
Other languages
English (en)
Other versions
CN109408475A (zh
Inventor
王贤达
马立珂
王子骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGZHOU DINGJIA COMPUTER TECHNOLOGY Co Ltd
Original Assignee
GUANGZHOU DINGJIA COMPUTER TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGZHOU DINGJIA COMPUTER TECHNOLOGY Co Ltd filed Critical GUANGZHOU DINGJIA COMPUTER TECHNOLOGY Co Ltd
Priority to CN201811221893.7A priority Critical patent/CN109408475B/zh
Publication of CN109408475A publication Critical patent/CN109408475A/zh
Application granted granted Critical
Publication of CN109408475B publication Critical patent/CN109408475B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0608Saving storage space on storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • G06F11/1453Management of the data involved in backup or backup restore using de-duplication of the data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1464Management of the backup or restore process for networked environments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • G06F3/0641De-duplication techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种重复数据删除过程中的数据处理方法和系统、计算机设备、计算机存储介质。上述方法包括:从备份数据中提取第一数据量的文件数据,检测文件数据是否符合预设的分块条件;若文件数据不符合分块条件,从备份数据中提取第二数据量的文件数据,将该次提取的文件数据叠加至该次之前提取的文件数据,得到叠加数据;若叠加数据不符合分块条件且叠加数据的数据量小于第三数据量,返回执行从所述备份数据中提取第二数据量的文件数据,将该次提取的文件数据叠加至该次之前提取的文件数据,得到叠加数据的过程;若叠加数据符合预设的分块条件或者叠加数据的数据量大于或等于第三数据量,则将当前的叠加数据确定为重删数据块。

Description

重复数据删除过程中的数据处理方法和系统
技术领域
本发明涉及数据处理技术领域,特别是涉及一种重复数据删除过程中的数据处理方法和系统、计算机设备、计算机存储介质。
背景技术
重复数据删除(De-duplication)是一种数据缩减技术,旨在减少存储系统中使用的存储容量。它通过删除存储系统中重复的数据,只保留其中的一份,从而消除冗余数据。重复数据删除技术节省空间的效率可通过重删率表征,重删率可以依据所节省空间的大小与原始数据的大小之间的比值确定。
重复数据删除技术根据粒度可以分为文件级、数据块级。数据块级的重复数据删除将一个文件按不同的方式划分成数据块,以数据块为单位进行检测;基于数据块级的重复数据删除技术中的数据分块方式包括定长分块方式和变成分块方式。定长分块方式容易使数据存储空间对应的备份之间变化的数据块无法对齐到相同的重删块大小边界,而导致检测不到重复的数据块,使重复数据删除效果差;变长分块方式计算量相对较大,计算速度较慢,使后续重复数据删除效率降低;可见传统的文件数据分块方式存在使删除重复数据的效果差或者效率低的问题。
发明内容
基于此,有必要针对传统的文件数据分块方式存在使删除重复数据的效果差或者效率低的技术问题,提供一种重复数据删除过程中的数据处理方法和系统、计算机设备、计算机存储介质。
一种重复数据删除过程中的数据处理方法,包括:
从备份数据中提取第一数据量的文件数据,检测所述文件数据是否符合预设的分块条件;其中,所述分块条件为描述文件数据与存储空间所保存的存储数据块匹配度的条件;
若所述文件数据不符合预设的分块条件,从所述备份数据中提取第二数据量的文件数据,将该次提取的文件数据叠加至该次之前提取的文件数据,得到叠加数据;
若所述叠加数据不符合预设的分块条件且所述叠加数据的数据量小于第三数据量,返回执行从所述备份数据中提取第二数据量的文件数据,将该次提取的文件数据叠加至该次之前提取的文件数据,得到叠加数据的过程;
若所述叠加数据符合预设的分块条件或者所述叠加数据的数据量大于或等于第三数据量,则将当前的叠加数据确定为重删数据块。
上述重复数据删除过程中的数据处理方法,从备份数据中提取第一数据量的文件数据,检测所述文件数据是否符合预设的分块条件,在上述文件数据不符合预设的分块条件时,继续从所述备份数据中提取第二数据量的文件数据叠加至该次之前提取的文件数据,得到叠加数据,若所述叠加数据不符合预设的分块条件且述叠加数据的数据量小于第三数据量,返回执行从所述备份数据中提取第二数据量的文件数据,将该次提取的文件数据叠加至该次之前提取的文件数据,得到叠加数据的过程,以重新确定叠加数据,并在上述叠加数据符合预设的分块条件或者所述叠加数据的数据量大于或等于第三数据量时,将当前的叠加数据确定为重删数据块,上述重删数据块可以与存储空间中的存储数据块进行良好匹配且不会出现重删数据块过大的状况,能够实现与存储空间所存储的存储数据块之间的对齐,以准确查找重复的数据块,保证重复数据的删除效果,且在已提取的文件数据(该次之前提取的文件数据)进行有规律的文件数据叠加,即每次叠加第二数据量的文件数据,可以简化重删数据块确定过程中的运算过程,降低计算量,提高重删数据块的确定效率,进而提高了备份数据中重复数据的删除效率。
在其中一个实施例中,所述从备份数据中提取第一数据量的文件数据,检测所述文件数据是否符合预设的分块条件的过程之后,还包括:
若所述文件数据符合预设的分块条件,将所述文件数据确定为重删数据块。
本实施例在从备份数据提取的文件数据符合预设的分块条件时,将所述文件数据确定为重删数据块,使所确定的重删数据块与存储空间中的存储数据块相匹配,可以对上述重删数据块是否为存储空间的重复数据进行准确检测,保证了后续重复数据删除过程中的重删率。
在其中一个实施例中,所述检测所述文件数据是否符合预设的分块条件的过程包括:
获取所述文件数据结尾部分的哈希值,检测所述哈希值是否为预设值;
若所述哈希值为预设值,判定所述文件数据符合预设的分块条件;若所述哈希值不为预设值,则判定所述文件数据不符合预设的分块条件。
本实施例可以对文件数据是否符合预设的分块条件进行准确检测,进一步保证后续删除重复数据的效果。
在其中一个实施例中,所述从备份数据中提取第一数据量的文件数据,检测所述文件数据是否符合预设的分块条件的过程之前,还包括:
获取备份数据中一个数据单元对应的单元数据量,根据所述单元数据量确定第一数据量。
本实施例可以对第一数据量进行准确确定,保证从备份数据中所提取的文件数据的完整性。
在其中一个实施例中,所述从备份数据中提取第一数据量的文件数据,检测所述文件数据是否符合预设的分块条件的过程之前,还包括:
根据存储空间大小大小设定目标数据块大小,根据所述目标数据块大小的倍数确定第三数据量。
本实施例可以对第三数据量进行准确确定。
在其中一个实施例中,所述若所述叠加数据符合预设的分块条件或者所述叠加数据的数据量大于或等于第三数据量,则将当前的叠加数据确定为重删数据块的过程之后,还包括:
获取所述重删数据块的重删指纹,若存储空间存在所述重删指纹,则将所述重删数据块删除;若所述存储空间不存在所述重删指纹,则将所述重删数据块保存至所述存储空间。
在其中一个实施例中,所述若所述叠加数据符合预设的分块条件或者所述叠加数据的数据量大于或等于第三数据量,则将当前的叠加数据确定为重删数据块的过程之后,还包括:
若所述备份数据中还存在文件数据,则返回执行从备份数据中提取第一数据量的文件数据,检测所述文件数据是否符合预设的分块条件的过程。
本实施例可以保证存储空间所保存数据的有效性和完整性。
一种重复数据删除过程中的数据处理系统,包括:
第一提取模块,用于从备份数据中提取第一数据量的文件数据,检测所述文件数据是否符合预设的分块条件;其中,所述分块条件为描述文件数据与存储空间所保存的存储数据块匹配度的条件;
第二提取模块,用于若所述文件数据不符合预设的分块条件,从所述备份数据中提取第二数据量的文件数据,将该次提取的文件数据叠加至该次之前提取的文件数据,得到叠加数据;
第一返回模块,用于若所述叠加数据不符合预设的分块条件且所述叠加数据的数据量小于第三数据量,返回执行从所述备份数据中提取第二数据量的文件数据,将该次提取的文件数据叠加至该次之前提取的文件数据,得到叠加数据的过程;
第一确定模块,用于若所述叠加数据符合预设的分块条件或者所述叠加数据的数据量大于或等于第三数据量,则将当前的叠加数据确定为重删数据块。
上述重复数据删除过程中的数据处理系统,从备份数据中提取第一数据量的文件数据,检测所述文件数据是否符合预设的分块条件,在上述文件数据不符合预设的分块条件时,继续从所述备份数据中提取第二数据量的文件数据叠加至该次之前提取的文件数据,得到叠加数据,若所述叠加数据不符合预设的分块条件且述叠加数据的数据量小于第三数据量,返回执行从所述备份数据中提取第二数据量的文件数据,将该次提取的文件数据叠加至该次之前提取的文件数据,得到叠加数据的过程,以重新确定叠加数据,并在上述叠加数据符合预设的分块条件或者所述叠加数据的数据量大于或等于第三数据量时,将当前的叠加数据确定为重删数据块,上述重删数据块可以与存储空间中的存储数据块进行良好匹配且不会出现重删数据块过大的状况,能够实现与存储空间所存储的存储数据块之间的对齐,以准确查找重复的数据块,保证重复数据的删除效果,且在已提取的文件数据(该次之前提取的文件数据)进行有规律的文件数据叠加,即每次叠加第二数据量的文件数据,可以简化重删数据块确定过程中的运算过程,降低计算量,提高重删数据块的确定效率,进而提高了备份数据中重复数据的删除效率。
一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例提供的重复数据删除过程中的数据处理方法。
一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例提供的重复数据删除过程中的数据处理方法。
根据本发明的重复数据删除过程中的数据处理方法,本发明还提供一种计算机设备和计算机存储介质,用于通过程序实现上述重复数据删除过程中的数据处理方法。上述计算机设备和计算机存储介质所确定的重删数据块能够保证备份数据中重复数据的删除效果,提高重复数据的删除效率。
附图说明
图1为一个实施例的重复数据删除过程中的数据处理方法流程图;
图2为一个实施例的重复数据删除过程中的数据处理系统结构示意图;
图3为一个实施例的计算机系统模块图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
需要说明的是,本发明实施例所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换,以使这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
本发明实施例的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
参考图1所示,图1为一个实施例的重复数据删除过程中的数据处理方法流程图,包括:
S10,从备份数据中提取第一数据量的文件数据,检测所述文件数据是否符合预设的分块条件;其中,所述分块条件为描述文件数据与存储空间所保存的存储数据块匹配度的条件;
上述备份数据可以为某数据库的备份数据,如需要将上述数据库中的数据保存至存储空间时,可以将该数据库中的数据进行备份,得到备份数据。备份数据可以包括大量的数据单元(数据存储单元)所存储的文件数据,其中一个数据单元可以存储一个单元数据量大小的文件数据,可以依据重删数据块的分块需求确定上述第一数据量,如将第一数据量的大小设置为单元数据量的大小等,以避免出现重删数据块过小的情形。上述存储空间为存储完整文件数据的空间,如文件数据对应的存储设备中的存储空间,存储空间所保存的数据可以以存储数据块的形式存在,在存储空间中的存储数据块与重删数据块相匹配(如数据量大小和/或数据块边界相匹配)时,才能准确检测重删数据块是否与存储空间已存在的存储数据块相重复,保证后续重复数据删除过程中的重删率。
上述分块条件可以依据存储空间中存储备份数据的特征设置,比如可以设置为表征相应数据块的校验值的取值范围等条件,若从备份数据所提取的文件数据是否符合预设的分块条件,表明上述文件数据与存储空间中的存储数据块相匹配,可以对依据所提取的文件数据确定的重删数据块是否为重复数据进行准确检测;若从备份数据所提取的述文件数据不符合预设的分块条件,表明上述文件数据与存储空间中的存储数据块不相匹配,若以当前的文件数据确定重删数据块,将难以准确对重删数据块是否为重复数据进行检测。
S20,若所述文件数据不符合预设的分块条件,从所述备份数据中提取第二数据量的文件数据,将该次提取的文件数据叠加至该次之前提取的文件数据,得到叠加数据;
S30,若所述叠加数据不符合预设的分块条件且所述叠加数据的数据量小于第三数据量,返回执行从所述备份数据中提取第二数据量的文件数据,将该次提取的文件数据叠加至该次之前提取的文件数据,得到叠加数据的过程;
上述叠加数据由当前提取的文件数据与之前提取的所有文件数据(如此次确定重删数据块过程中第一次提取的文件数据,或者上一次确定的叠加数据)叠加而成。上述第三数据量为重删数据块的数据量大小上限,可以依据产生备份数据的数据库类型等特征确定。上述第二数据量为文件数据叠加过程中的步进值,可以设置为产生备份数据的数据库中数据块大小的约数等值。
上述步骤S20、S30在文件数据或者叠加数据不符合预设的分块条件时,每次向上一次确定的文件数据或者叠加数据叠加备份数据中第二数据量的文件数据,直至得到的叠加数据符合预设的分块条件或者叠加数据的数据量大于或等于第三数据量,在尽可能保证叠加数据与存储空间所保存的存储数据块相匹配的基础上,控制了叠加数据确定过程中的计算量。
S40,若所述叠加数据符合预设的分块条件或者所述叠加数据的数据量大于或等于第三数据量,则将当前的叠加数据确定为重删数据块。
根据上述叠加数据所确定的重删数据块,与存储空间所保存的存储数据块具有良好的匹配度,保证了后续重删数据对应的重删率。
本实施例提供的重复数据删除过程中的数据处理方法,从备份数据中提取第一数据量的文件数据,检测所述文件数据是否符合预设的分块条件,在上述文件数据不符合预设的分块条件时,继续从所述备份数据中提取第二数据量的文件数据叠加至该次之前提取的文件数据,得到叠加数据,若所述叠加数据不符合预设的分块条件且述叠加数据的数据量小于第三数据量,返回执行从所述备份数据中提取第二数据量的文件数据,将该次提取的文件数据叠加至该次之前提取的文件数据,得到叠加数据的过程,以重新确定叠加数据,并在上述叠加数据符合预设的分块条件或者所述叠加数据的数据量大于或等于第三数据量时,将当前的叠加数据确定为重删数据块,上述重删数据块可以与存储空间中的存储数据块进行良好匹配且不会出现重删数据块过大的状况,能够实现与存储空间所存储的存储数据块之间的对齐,以准确查找重复的数据块,保证重复数据的删除效果,且在已提取的文件数据(该次之前提取的文件数据)进行有规律的文件数据叠加,即每次叠加第二数据量的文件数据,可以简化重删数据块确定过程中的运算过程,降低计算量,提高重删数据块的确定效率,进而提高了相应重复数据的删除效率。
在一个实施例中,所述从备份数据中提取第一数据量的文件数据,检测所述文件数据是否符合预设的分块条件的过程之后,还包括:
若所述文件数据符合预设的分块条件,将所述文件数据确定为重删数据块。
本实施例在从备份数据提取的文件数据符合预设的分块条件时,将所述文件数据确定为重删数据块,使所确定的重删数据块与存储空间中的存储数据块相匹配,可以对上述重删数据块是否为存储空间的重复数据进行准确检测,保证了后续重复数据删除过程中的重删率。
在一个实施例中,所述检测所述文件数据是否符合预设的分块条件的过程包括:
获取所述文件数据结尾部分的哈希值,检测所述哈希值是否为预设值;
若所述哈希值为预设值,判定所述文件数据符合预设的分块条件;若所述哈希值不为预设值,则判定所述文件数据不符合预设的分块条件。
上述文件数据结尾部分为文件数据中最后一段能够通过设定位(如4位)哈希值表征的数据。上述预设值可以依据哈希值的位数确定,比如若文件数据的哈希值为4位哈希值,可以随机从4位哈希值中选取一个值作为预设值。
若所检测的文件数据为叠加数据,则可以获取上述叠加数据的哈希值,检测叠加数据的哈希值是否为预设值,若所述哈希值为预设值,判定所述叠加数据符合预设的分块条件;若所述哈希值不为预设值,则判定叠加数据不符合预设的分块条件。
本实施例可以对文件数据是否符合预设的分块条件进行准确检测,进一步保证后续删除重复数据的效果。
在一个实施例中,所述从备份数据中提取第一数据量的文件数据,检测所述文件数据是否符合预设的分块条件的过程之前,还包括:
获取备份数据中一个数据单元对应的单元数据量,根据所述单元数据量确定第一数据量。
本实施例可以对第一数据量进行准确确定,保证从备份数据中所提取的文件数据的完整性。
在一个实施例中,所述从备份数据中提取第一数据量的文件数据,检测所述文件数据是否符合预设的分块条件的过程之前,还包括:
根据所述备份数据的大小设定目标数据块大小,根据所述目标数据块大小的倍数确定第三数据量。
上述目标数据块大小可以依据产生备份数据的数据库类型和备份数据对应的文件数据量(备份数据的大小)设定,比如可以将上述目标数据块大小设置为96KiB(千位二进制字节)等值。上述第三数据量可以设置为目标数据块大小的2倍至目标数据块大小的4倍;叠加数据的数据量大于或等于第三数据量时,不再继续在上述叠加数据上叠加文件数据,以避免所确定的重删数据块过大造成与存储空间所存储的存储数据块差异大的状况,进一步保证了所确定的重删数据块的合理性。上述第二数据量可以设置为产生备份数据的数据库中数据块大小的约数(包括相应数据块大小本身),以简化数据分块过程中的计算量。
在从备份数据提取数据的过程中,第一数据量为提取文件数据的初始值,第二数据量为提取文件数据的步进值,第三数据量为当前确定重删数据块过程中所提取的文件数据的上限值。具体地,可以首先提取第一数据量的文件数据后,若所提取的文件数据符合预设的分块条件,则将上述文件数据确定为重删数据块,若所提取的文件数据不符合预设的分块条件,则可以循环从备份数据中第二数据量的文件数据叠加至之前提取的文件数据,直至叠加后的数据符合预设的分块条件或者叠加后的数据大于或者等于第三数据量这一数据量上限值,再将上述叠加后的数据确定为重删数据块,这样在简化其中运算过程的基础上,可以使所确定的重删数据块尽可能的与存储空间中存储数据块相匹配。
本实施例可以对第三数据量进行准确确定。
在一个实施例中,所述若所述叠加数据符合预设的分块条件或者所述叠加数据的数据量大于或等于第三数据量,则将当前的叠加数据确定为重删数据块的过程之后,还包括:
获取所述重删数据块的重删指纹,若存储空间存在所述重删指纹,则将所述重删数据块删除;若所述存储空间不存在所述重删指纹,则将所述重删数据块保存至所述存储空间。
上述重删指纹为重删数据块的指纹,若存储空间存在所述重删指纹,表明存储空间已存在重删数据块所包括的文件数据,此时将重删数据块删除可以消除存储空间中的冗余数据,保证存储空间所保存的数据的有效性,若存储空间不存在重删指纹,表明存储空间还没有保存重删数据块所包括的文件数据,将重删数据块保存至所述存储空间,可以保证存储空间所存储的数据的完整性。
在一个实施例中,所述若所述叠加数据符合预设的分块条件或者所述叠加数据的数据量大于或等于第三数据量,则将当前的叠加数据确定为重删数据块的过程之后,还包括:
若所述备份数据中还存在文件数据,则返回执行从备份数据中提取第一数据量的文件数据,检测所述文件数据是否符合预设的分块条件的过程。
本实施例在确定重删数据块后,可以检测备份数据是否还存在文件数据,若存在,则返回执行从备份数据中提取第一数据量的文件数据,检测所述文件数据是否符合预设的分块条件的过程,继续进行下一个重删数据块的确定,将与存储空间中相互重复的重删数据块删除,将存储空间未保存的重删数据块保存至存储空间,可以保证存储空间所保存数据的有效性和完整性。
参考图2,图2所示为一个实施例的重复数据删除过程中的数据处理系统结构示意图,包括:
第一提取模块10,用于从备份数据中提取第一数据量的文件数据,检测所述文件数据是否符合预设的分块条件;其中,所述分块条件为描述文件数据与存储空间所保存的存储数据块匹配度的条件;
第二提取模块20,用于若所述文件数据不符合预设的分块条件,从所述备份数据中提取第二数据量的文件数据,将该次提取的文件数据叠加至该次之前提取的文件数据,得到叠加数据;
第一返回模块30,用于若所述叠加数据不符合预设的分块条件且所述叠加数据的数据量小于第三数据量,返回执行从所述备份数据中提取第二数据量的文件数据,将该次提取的文件数据叠加至该次之前提取的文件数据,得到叠加数据的过程;
第一确定模块40,用于若所述叠加数据符合预设的分块条件或者所述叠加数据的数据量大于或等于第三数据量,则将当前的叠加数据确定为重删数据块。
在一个实施例中,上述重复数据删除过程中的数据处理系统还可以包括:
第二确定模块,用于若所述文件数据符合预设的分块条件,将所述文件数据确定为重删数据块。
在一个实施例中,所述第一提取模块进一步用于:
获取所述文件数据的哈希值,检测所述哈希值是否为预设值;
若所述哈希值为预设值,判定所述文件数据符合预设的分块条件;若所述哈希值不为预设值,则判定所述文件数据不符合预设的分块条件。
在一个实施例中,上述重复数据删除过程中的数据处理系统还可以包括:
第一获取模块,用于获取备份数据中一个数据单元对应的单元数据量,根据所述单元数据量确定第一数据量。
在一个实施例中,上述重复数据删除过程中的数据处理系统还可以包括:
设定模块,用于根据所述备份数据的大小设定目标数据块大小,根据所述目标数据块大小的倍数确定第三数据量。
在一个实施例中,上述重复数据删除过程中的数据处理系统还可以包括:
第二获取模块,用于获取所述重删数据块的重删指纹,若存储空间存在所述重删指纹,则将所述重删数据块删除;若所述存储空间不存在所述重删指纹,则将所述重删数据块保存至所述存储空间。
在一个实施例中,上述重复数据删除过程中的数据处理系统还可以包括:
第二返回模块,用于若所述备份数据中还存在文件数据,则返回第一提取模块执行从备份数据中提取第一数据量的文件数据,检测所述文件数据是否符合预设的分块条件的过程。
图3为能实现本发明实施例的一个计算机系统1000的模块图。该计算机系统1000只是一个适用于本发明的计算机环境的示例,不能认为是提出了对本发明的使用范围的任何限制。计算机系统1000也不能解释为需要依赖于或具有图示的示例性的计算机系统1000中的一个或多个部件的组合。
图3中示出的计算机系统1000是一个适合用于本发明的计算机系统的例子。具有不同子系统配置的其它架构也可以使用。例如有大众所熟知的台式计算机、笔记本等类似设备可以适用于本发明的一些实施例。但不限于以上所列举的设备。
如图3所示,计算机系统1000包括处理器1010、存储器1020和系统总线1022。包括存储器1020和处理器1010在内的各种系统组件连接到系统总线1022上。处理器1010是一个用来通过计算机系统中基本的算术和逻辑运算来执行计算机程序指令的硬件。存储器1020是一个用于临时或永久性存储计算程序或数据(例如,程序状态信息)的物理设备。系统总线1020可以为以下几种类型的总线结构中的任意一种,包括存储器总线或存储控制器、外设总线和局部总线。处理器1010和存储器1020可以通过系统总线1022进行数据通信。其中存储器1020包括只读存储器(ROM)或闪存(图中都未示出),以及随机存取存储器(RAM),RAM通常是指加载了操作系统和应用程序的主存储器。
计算机系统1000还包括显示接口1030(例如,图形处理单元)、显示设备1040(例如,液晶显示器)、音频接口1050(例如,声卡)以及音频设备1060(例如,扬声器)。
计算机系统1000一般包括一个存储设备1070。存储设备1070可以从多种计算机可读介质中选择,计算机可读介质是指可以通过计算机系统1000访问的任何可利用的介质,包括移动的和固定的两种介质。例如,计算机可读介质包括但不限于,闪速存储器(微型SD卡),CD-ROM,数字通用光盘(DVD)或其它光盘存储、磁带盒、磁带、磁盘存储或其它磁存储设备,或者可用于存储所需信息并可由计算机系统1000访问的任何其它介质。
计算机系统1000还包括输入装置1080和输入接口1090(例如,IO控制器)。用户可以通过输入装置1080,如键盘、鼠标、显示装置1040上的触摸面板设备,输入指令和信息到计算机系统1000中。输入装置1080通常是通过输入接口1090连接到系统总线1022上的,但也可以通过其它接口或总线结构相连接,如通用串行总线(USB)。
计算机系统1000可在网络环境中与一个或者多个网络设备进行逻辑连接。网络设备可以是个人电脑、服务器、路由器、平板电脑或者其它公共网络节点。计算机系统1000通过局域网(LAN)接口1100或者移动通信单元1110与网络设备相连接。局域网(LAN)是指在有限区域内,例如家庭、学校、计算机实验室、或者使用网络媒体的办公楼,互联组成的计算机网络。WiFi和双绞线布线以太网是最常用的构建局域网的两种技术。WiFi是一种能使计算机系统1000间交换数据或通过无线电波连接到无线网络的技术。移动通信单元1110能在一个广阔的地理区域内移动的同时通过无线电通信线路接听和拨打电话。除了通话以外,移动通信单元1110也支持在提供移动数据服务的2G,3G或4G蜂窝通信系统中进行互联网访问。
应当指出的是,其它包括比计算机系统1000更多或更少的子系统的计算机系统也能适用于发明。如上面详细描述的,适用于本发明的计算机系统1000能执行重复数据删除过程中的数据处理方法的指定操作。计算机系统1000通过处理器1010运行在计算机可读介质中的软件指令的形式来执行这些操作。这些软件指令可以从存储设备1070或者通过局域网接口1100从另一设备读入到存储器1020中。存储在存储器1020中的软件指令使得处理器1010执行上述的重复数据删除过程中的数据处理方法。此外,通过硬件电路或者硬件电路结合软件指令也能同样实现本发明。因此,实现本发明并不限于任何特定硬件电路和软件的组合。
本发明的重复数据删除过程中的数据处理系统与本发明的重复数据删除过程中的数据处理方法一一对应,在上述重复数据删除过程中的数据处理方法的实施例阐述的技术特征及其有益效果均适用于重复数据删除过程中的数据处理系统的实施例中。
基于如上所述的示例,在一个实施例中还提供一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现如上述各实施例中的任意一种重复数据删除过程中的数据处理方法。
上述计算机设备,通过所述处理器上运行的计算机程序,所确定的重删数据块可以保证重复数据的删除效果,提高相应的删除效率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性的计算机可读取存储介质中,如本发明实施例中,该程序可存储于计算机系统的存储介质中,并被该计算机系统中的至少一个处理器执行,以实现包括如上述重复数据删除过程中的数据处理方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
据此,在一个实施例中还提供一种计算机存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如上述各实施例中的任意一种重复数据删除过程中的数据处理方法。
上述计算机存储介质,通过其存储的计算机程序,能够提高重复数据的删除效果和删除效率。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种重复数据删除过程中的数据处理方法,其特征在于,包括:
从备份数据中提取第一数据量的文件数据,检测所述文件数据是否符合预设的分块条件;其中,所述分块条件为描述文件数据与存储空间所保存的存储数据块匹配度的条件;所述分块条件还包括表征相应数据块的校验值的取值范围;
若所述文件数据不符合预设的分块条件,从所述备份数据中提取第二数据量的文件数据,将该次提取的文件数据叠加至该次之前提取的文件数据,得到叠加数据;
若所述叠加数据不符合预设的分块条件且所述叠加数据的数据量小于第三数据量,返回执行从所述备份数据中提取第二数据量的文件数据,将该次提取的文件数据叠加至该次之前提取的文件数据,得到叠加数据的过程;
若所述叠加数据符合预设的分块条件或者所述叠加数据的数据量大于或等于第三数据量,则将当前的叠加数据确定为重删数据块。
2.根据权利要求1所述的重复数据删除过程中的数据处理方法,其特征在于,所述从备份数据中提取第一数据量的文件数据,检测所述文件数据是否符合预设的分块条件的过程之后,还包括:
若所述文件数据符合预设的分块条件,将所述文件数据确定为重删数据块。
3.根据权利要求1所述的重复数据删除过程中的数据处理方法,其特征在于,所述检测所述文件数据是否符合预设的分块条件的过程包括:
获取所述文件数据结尾部分的哈希值,检测所述哈希值是否为预设值;
若所述哈希值为预设值,判定所述文件数据符合预设的分块条件;若所述哈希值不为预设值,则判定所述文件数据不符合预设的分块条件。
4.根据权利要求1所述的重复数据删除过程中的数据处理方法,其特征在于,所述从备份数据中提取第一数据量的文件数据,检测所述文件数据是否符合预设的分块条件的过程之前,还包括:
获取备份数据中一个数据单元对应的单元数据量,根据所述单元数据量确定第一数据量。
5.根据权利要求1所述的重复数据删除过程中的数据处理方法,其特征在于,所述从备份数据中提取第一数据量的文件数据,检测所述文件数据是否符合预设的分块条件的过程之前,还包括:
根据所述备份数据的大小设定目标数据块大小,根据所述目标数据块大小的倍数确定第三数据量。
6.根据权利要求1至5任一项所述的重复数据删除过程中的数据处理方法,其特征在于,若所述叠加数据符合预设的分块条件或者所述叠加数据的数据量大于或等于第三数据量,则将当前的叠加数据确定为重删数据块的过程之后,还包括:
获取所述重删数据块的重删指纹,若存储空间存在所述重删指纹,则将所述重删数据块删除;若所述存储空间不存在所述重删指纹,则将所述重删数据块保存至所述存储空间。
7.根据权利要求1至5任一项所述的重复数据删除过程中的数据处理方法,其特征在于,所述若所述叠加数据符合预设的分块条件或者所述叠加数据的数据量大于或等于第三数据量,则将当前的叠加数据确定为重删数据块的过程之后,还包括:
若所述备份数据中还存在文件数据,则返回执行从备份数据中提取第一数据量的文件数据,检测所述文件数据是否符合预设的分块条件的过程。
8.一种重复数据删除过程中的数据处理系统,其特征在于,包括:
第一提取模块,用于从备份数据中提取第一数据量的文件数据,检测所述文件数据是否符合预设的分块条件;其中,所述分块条件为描述文件数据与存储空间所保存的存储数据块匹配度的条件;所述分块条件还包括表征相应数据块的校验值的取值范围;
第二提取模块,用于若所述文件数据不符合预设的分块条件,从所述备份数据中提取第二数据量的文件数据,将该次提取的文件数据叠加至该次之前提取的文件数据,得到叠加数据;
第一返回模块,用于若所述叠加数据不符合预设的分块条件且所述叠加数据的数据量小于第三数据量,返回执行从所述备份数据中提取第二数据量的文件数据,将该次提取的文件数据叠加至该次之前提取的文件数据,得到叠加数据的过程;
第一确定模块,用于若所述叠加数据符合预设的分块条件或者所述叠加数据的数据量大于或等于第三数据量,则将当前的叠加数据确定为重删数据块。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任意一项所述的重复数据删除过程中的数据处理方法。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7任意一项所述的重复数据删除过程中的数据处理方法。
CN201811221893.7A 2018-10-19 2018-10-19 重复数据删除过程中的数据处理方法和系统 Active CN109408475B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811221893.7A CN109408475B (zh) 2018-10-19 2018-10-19 重复数据删除过程中的数据处理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811221893.7A CN109408475B (zh) 2018-10-19 2018-10-19 重复数据删除过程中的数据处理方法和系统

Publications (2)

Publication Number Publication Date
CN109408475A CN109408475A (zh) 2019-03-01
CN109408475B true CN109408475B (zh) 2019-07-26

Family

ID=65467832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811221893.7A Active CN109408475B (zh) 2018-10-19 2018-10-19 重复数据删除过程中的数据处理方法和系统

Country Status (1)

Country Link
CN (1) CN109408475B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102467571A (zh) * 2010-11-17 2012-05-23 英业达股份有限公司 重复数据删除的数据区块切分方法与新增方法
CN102629258A (zh) * 2012-02-29 2012-08-08 浪潮(北京)电子信息产业有限公司 重复数据删除方法和装置
CN106610794A (zh) * 2016-11-21 2017-05-03 深圳市深信服电子科技有限公司 数据去重的收敛分块方法及装置
CN107239226A (zh) * 2016-03-29 2017-10-10 联想(北京)有限公司 一种数据去重方法及终端、服务器
CN108089816A (zh) * 2017-11-14 2018-05-29 西北工业大学 一种基于负载均衡的查询式重复数据删除方法及装置
CN108090125A (zh) * 2017-11-14 2018-05-29 西北工业大学 一种非查询式的重复数据删除方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102467571A (zh) * 2010-11-17 2012-05-23 英业达股份有限公司 重复数据删除的数据区块切分方法与新增方法
CN102629258A (zh) * 2012-02-29 2012-08-08 浪潮(北京)电子信息产业有限公司 重复数据删除方法和装置
CN107239226A (zh) * 2016-03-29 2017-10-10 联想(北京)有限公司 一种数据去重方法及终端、服务器
CN106610794A (zh) * 2016-11-21 2017-05-03 深圳市深信服电子科技有限公司 数据去重的收敛分块方法及装置
CN108089816A (zh) * 2017-11-14 2018-05-29 西北工业大学 一种基于负载均衡的查询式重复数据删除方法及装置
CN108090125A (zh) * 2017-11-14 2018-05-29 西北工业大学 一种非查询式的重复数据删除方法及装置

Also Published As

Publication number Publication date
CN109408475A (zh) 2019-03-01

Similar Documents

Publication Publication Date Title
CN111309732B (zh) 数据处理方法、装置、介质和计算设备
CN109445861A (zh) 系统启动方法、装置、计算机装置及存储介质
CN113625973B (zh) 数据写入方法、装置、电子设备及计算机可读存储介质
US20120101996A1 (en) Apparatus and method for snapshot image segmentation
CN113806300B (zh) 数据存储方法、系统、装置、设备及存储介质
CN113961510B (zh) 一种文件处理方法、装置、设备及存储介质
CN112540731B (zh) 数据的追加写方法、装置、设备、介质和程序产品
CN114996173B (zh) 一种管理存储设备写操作的方法和装置
CN107506150A (zh) 分布式存储装置、重删、写、删除、读取方法以及系统
CN111444116B (zh) 存储空间碎片处理方法及装置
CN117312051A (zh) 文件备份方法、装置、设备及存储介质
CN114020193B (zh) 跨页勾选确定方法、装置、电子设备及存储介质
CN111290836A (zh) 虚拟机快照创建方法、装置、存储介质及计算机设备
CN117369731B (zh) 一种数据的缩减处理方法、装置、设备及介质
CN114880289A (zh) 一种文件分组显示方法及计算设备
CN110652728A (zh) 一种游戏资源管理方法、装置、电子设备及存储介质
CN109408475B (zh) 重复数据删除过程中的数据处理方法和系统
CN108205559B (zh) 一种数据管理方法及其设备
CN108984589A (zh) 一种数据写入方法及服务器
EP4092544A1 (en) Method, apparatus and storage medium for deduplicating entity nodes in graph database
CN109857519A (zh) 虚拟磁盘的处理方法及相关装置
CN115543918A (zh) 一种文件快照方法、系统、电子设备及存储介质
CN108764206A (zh) 目标图像识别方法和系统、计算机设备
CN111459848B (zh) 一种文件碎片的整理方法、装置、存储介质及电子设备
CN111538520B (zh) 用于超融合集群的更新方法及装置、终端和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Data processing method and system in duplicate data deletion process

Effective date of registration: 20200204

Granted publication date: 20190726

Pledgee: Guangzhou Rural Commercial Bank Co.,Ltd. Huaxia Branch

Pledgor: Guangzhou Dingjia Computer Technology Co.,Ltd.

Registration number: Y2020440000023

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20230703

Granted publication date: 20190726

Pledgee: Guangzhou Rural Commercial Bank Co.,Ltd. Huaxia Branch

Pledgor: Guangzhou Dingjia Computer Technology Co.,Ltd.

Registration number: Y2020440000023

PC01 Cancellation of the registration of the contract for pledge of patent right