CN104484132A - 数据缩减的方法及装置 - Google Patents

数据缩减的方法及装置 Download PDF

Info

Publication number
CN104484132A
CN104484132A CN201410767371.2A CN201410767371A CN104484132A CN 104484132 A CN104484132 A CN 104484132A CN 201410767371 A CN201410767371 A CN 201410767371A CN 104484132 A CN104484132 A CN 104484132A
Authority
CN
China
Prior art keywords
stored
data block
duplicate removal
data
memory address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410767371.2A
Other languages
English (en)
Other versions
CN104484132B (zh
Inventor
金添福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Cloud Computing Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201410767371.2A priority Critical patent/CN104484132B/zh
Publication of CN104484132A publication Critical patent/CN104484132A/zh
Priority to PCT/CN2015/096568 priority patent/WO2016091138A1/zh
Application granted granted Critical
Publication of CN104484132B publication Critical patent/CN104484132B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • G06F3/0641De-duplication techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0608Saving storage space on storage systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种数据缩减的方法及装置。一种数据缩减的方法,包括:根据待存储数据的特征信息,确定是否需要对所述待存储数据中的待存储数据块进行去重处理;若需要,则对所述待存储数据块进行去重处理;若不需要,则对所述待存储数据块进行压缩处理。本发明实施例可以避免对无法去重或去重率低的数据块的指纹计算和查重,减少了存储服务器或存储器的CPU的资源消耗,从而解决了存储服务器或存储器的CPU资源浪费的问题。

Description

数据缩减的方法及装置
技术领域
本发明实施例涉及存储技术,尤其涉及一种数据缩减的方法及装置。
背景技术
随着需要存储的数据信息的不断增加,数据缩减技术在数据存储中的作用越来越重要。
现有技术中,数据缩减主要包括分块处理、去重处理、压缩处理三个过程;其中,去重处理包括指纹计算和查重。首先,存储服务器接收客户端发送的写入请求,该写入请求包括:待存储数据;其次,存储服务器通过分块处理对待存储数据进行数据分块,将待存储数据分为预设大小的待存储数据块;再次,存储服务器对每一待存储数据块通过指纹算法分别获得该待存储数据块对应的指纹标识,并通过查重确定获得的指纹标识与指纹表中已存储的指纹标识是否相同;若相同,则表明该指纹标识对应的待存储数据块与存储服务器中已存储的数据块重复,不需要存储;若不同,则将该指纹标识所对应的待存储数据块进行压缩处理,将压缩处理后的待存储数据块存储至存储服务器中,并将该指纹标识添加至指纹表。
但是,现有技术中,在进行数据缩减时存在存储服务器的中央处理器(CPU,Central Processing Unit)资源浪费的问题。
发明内容
本发明实施例提供一种数据缩减的方法及装置,用以解决存储服务器或存储器的CPU资源浪费的问题。
第一方面,本发明实施例提供一种数据缩减的方法,包括:
根据待存储数据的特征信息,确定是否需要对所述待存储数据中的待存储数据块进行去重处理;
若需要,则对所述待存储数据块进行去重处理;
若不需要,则对所述待存储数据块进行压缩处理。
结合第一方面,在第一方面的第一种可能实现的方式中,所述根据待存储数据的特征信息,确定是否需要对所述待存储数据中的待存储数据块进行去重处理,包括:根据所述待存储数据的位置信息,和/或所述待存储数据块的内容信息,确定是否需要对所述待存储数据块进行去重处理。
结合第一方面的第一种可能实现的方式,在第一方面的第二种可能实现的方式中,所述根据所述待存储数据的位置信息,确定是否需要对所述待存储数据块进行去重处理,包括:根据所述待存储数据对应的存储地址与预设存储地址的相对位置关系,确定是否需要对所述存储数据块进行去重处理;
其中,所述预设存储地址包括第一预设存储地址和第二预设存储地址;所述第一预设存储地址与所述第二预设存储地址之间的数据为不需要去重的数据。
结合第一方面的第二种可能实现的方式,在第一方面的第三种可能实现的方式中,所述预设存储地址,还包括:第三预设存储地址和第四预设存储地址;所述第三预设存储地址与所述第四预设存储地址之间的数据为需要去重的数据。
结合第一方面的第二种或第三种可能实现的方式,在第一方面的第四种可能实现的方式中,所述不需要去重的数据为元数据。
结合第一方面的第一种可能实现的方式,在第一方面的第五种可能实现的方式中,所述根据所述待存储数据块的内容信息,确定是否需要对所述待存储数据块进行去重处理,包括:根据所述待存储数据块的第一预设偏移位置与第二预设偏移位置之间的内容与预设内容的匹配关系,确定是否需要对所述待存储数据块进行去重处理;
其中,所述预设内容包括不需要去重的待存储数据块所需要包括的内容;所述第一预设偏移位置及所述第二预设偏移位置用于指示所述预设内容在待存储数据块中的相对位置。
结合第一方面的第五种可能实现的方式,在第一方面的第六种可能实现的方式中,所述预设内容,还包括需要去重的待存储数据块所需要包括的内容。
结合第一方面的第五种或第六种可能实现的方式,在第一方面的第七种可能实现的方式中,所述内容包括:标签。
结合第一方面的第五种至第七种任一种可能实现的方式,在第一方面的第八种可能实现的方式中,所述不需要去重的待存储数据块所需要包括的内容为FILE;若所述待存储数据块的大小为1K,则所述第一预设偏移位置为0,所述第二预设偏移位置为3。
第二方面,本发明实施例提供一种数据缩减的装置,所述装置为存储服务器,或者为包括控制单元的存储器,所述装置包括:
确定模块,用于根据待存储数据的特征信息,确定是否需要对所述待存储数据中的待存储数据块进行去重处理;
处理模块,用于当所述确定模块确定需要对所述待存储数据块进行去重处理时,对所述待存储数据块进行去重处理;否则,对所述待存储数据块进行压缩处理。
结合第二方面,在第二方面的第一种可能实现的方式中,所述确定模块,具体用于:根据所述待存储数据的位置信息,和/或所述待存储数据块的内容信息,确定是否需要对所述待存储数据块进行去重处理。
结合第二方面的第一种可能实现的方式,在第二方面的第二种可能实现的方式中,所述确定模块,具体用于:根据所述待存储数据对应的存储地址与预设存储地址的相对位置关系,确定是否需要对所述存储数据块进行去重处理;
其中,所述预设存储地址包括第一预设存储地址和第二预设存储地址;所述第一预设存储地址与所述第二预设存储地址之间的数据为不需要去重的数据。
结合第二方面的第二种可能实现的方式,在第二方面的第三种可能实现的方式中,所述预设存储地址,还包括:第三预设存储地址和第四预设存储地址;所述第三预设存储地址与所述第四预设存储地址之间的数据为需要去重的数据。
结合第二方面的第二种或第三种可能实现的方式,在第二方面的第四种可能实现的方式中,所述不需要去重的数据为元数据。
结合第二方面的第一种可能实现的方式,在第二方面的第五种可能实现的方式中,所述确定模块,具体用于:根据所述待存储数据块的第一预设偏移位置与第二预设偏移位置之间的内容与预设内容的匹配关系,确定是否需要对所述待存储数据块进行去重处理;
其中,所述预设内容包括不需要去重的待存储数据块所需要包括的内容;所述第一预设偏移位置及所述第二预设偏移位置用于指示所述预设内容在待存储数据块中的相对位置。
结合第二方面的第五种可能实现的方式,在第人方面的第六种可能实现的方式中,所述预设内容,还包括需要去重的待存储数据块所需要包括的内容。
结合第二方面的第五种或第六种可能实现的方式,在第二方面的第七种可能实现的方式中,所述内容包括:标签。
结合第二方面的第五种至第七种任一种可能实现的方式,在第二方面的第八种可能实现的方式中,所述不需要去重的待存储数据块所需要包括的内容为FILE;若所述待存储数据块的大小为1K,则所述第一预设偏移位置为0,所述第二预设偏移位置为3。
本发明实施例提供一种数据缩减的方法及装置,通过根据待存储数据的特征信息,确定是否需要对所述待存储数据中的待存储数据块进行去重处理;若需要,则对所述待存储数据块进行去重处理;若不需要,则对所述待存储数据块进行压缩处理;使得存储服务器对无法去重或去重率低的数据块不再进行去重处理;避免了对无法去重或去重率低的数据块的指纹计算和查重,减少了存储服务器或存储器的CPU的资源消耗,从而解决了存储服务器或存储器的CPU资源浪费的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明数据缩减方法的应用场景示意图一;
图2为本发明数据缩减方法的应用场景示意图二;
图3为本发明数据缩减的方法实施例一的流程图;
图4为本发明数据缩减的方法实施例二的流程图;
图5为本发明数据缩减的方法实施例四的流程图;
图6为本发明数据缩减装置实施例一的结构示意图;
图7为本发明数据缩减装置实施例六的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明数据缩减方法的应用场景示意图一;如图1所示,存储系统中,存储服务器11接收客户端12发送的写入请求;存储服务器11中的CPU 111通过分块处理对待存储数据进行分块处理;CPU 111对每一待存储数据块通过指纹算法分别获得该待存储数据块对应的指纹标识,并通过查重确定所获得指纹标识与指纹表中已存储的指纹标识是否相同;若相同,则表明该指纹标识对应的待存储数据块与存储服务器中已存储的数据块重复,不需要存储;若不同,则将该指纹标识所对应的待存储数据块进行压缩处理,将压缩处理后的待存储数据块存储至存储服务器11中的存储器112中,并将该指纹标识添加至指纹表。现有技术中,当待存储数据块无法去重(也即,待存储数据块的指纹标识与指纹表中已存储的指纹标识必定不相同)或去重率低(也即,待存储数据块的指纹标识与指纹表中已存储的指纹标识重复的概率非常小)时,待存储数据块仍然要经过去重处理中的指纹计算和查重:因此,存在存储服务器11的CPU资源浪费的问题。
本发明的数据缩减方法还可以应用于存储服务器内部第一处理单元向第二处理单元发送数据写入请求,第二处理单元对待存储数据块进行分块处理、去重处理的场景;类似的,这种场景下也存在存储服务器的CPU资源浪费的问题。
图2为本发明数据缩减方法的应用场景示意图二;如图2所示,存储系统中,存储器21接收存储服务器22发送的写入请求;存储器21中的CPU 211对待存储数据进行分块处理、去重处理;类似的,现有技术中也存在存储器21的CPU资源浪费的问题。
可选的,存储器21为包括控制单元的存储器;例如,可以为固态硬盘(SSD,Solid State Drives),或者,也可以为磁盘。
需要说明的是,任何需要进行数据缩减处理的场景都是本发明数据缩减的方法的应用场景,都属于本发明的保护范围。
图3为本发明数据缩减的方法实施例一的流程图,如图3所示,本实施例的方法可以包括:
步骤301、根据待存储数据的特征信息,确定是否需要对所述待存储数据中的待存储数据块进行去重处理;
若需要,则执行步骤302;否则,执行步骤303。
其中,待存储数据的特征信息包括:待存储数据的位置信息,和/或待存储数据块的内容信息。
步骤302、对所述待存储数据块进行去重处理;
需要说明的是,在执行步骤302后,若确定所述待存储数据块与已存储的数据块重复,则不需要对所述待存储数据块进行存储;若确定所述待存储数据块与已存储的数据块不重复,则将所述待存储数据块进行压缩处理,并对压缩处理后的待存储数据块进行存储。
步骤303、对所述待存储数据块进行压缩处理。
现有技术中,存储服务器或存储器对所有的待存储数据块都进行去重处理;本发明中,存储服务器或存储器根据待存储数据的特征信息,确定是否需要对所述待存储数据中的待存储数据块进行去重处理;若需要,则对所述待存储数据块进行去重处理;若不需要,则对所述待存储数据块进行压缩处理。
现有技术中,由于存储服务器或存储器对所有的待存储数据块都进行去重处理;因此,当待存储数据块无法去重或去重率低时,待存储数据块仍然需要经过去重处理中的指纹计算和查重;因此,存在存储服务器或存储器的CPU资源浪费的问题。本发明中,通过根据待存储数据的特征信息,确定是否需要对所述待存储数据中的待存储数据块进行去重处理;若需要,则对所述待存储数据块进行去重处理;若不需要,则对所述待存储数据块进行压缩处理;使得存储服务器或存储器对无法去重或去重率低的数据块不再进行去重处理;避免了对无法去重或去重率低的数据块的指纹计算和查重,减少了存储服务器或存储器的CPU的资源消耗,从而解决了存储服务器或存储器的CPU资源浪费的问题。
本实施例中,通过根据待存储数据的特征信息,确定是否需要对所述待存储数据中的待存储数据块进行去重处理;若需要,则对所述待存储数据块进行去重处理;若不需要,则对所述待存储数据块进行压缩处理;使得存储服务器或存储器对无法去重或去重率低的数据块不再进行去重处理;避免了对无法去重或去重率低的数据块的指纹计算和查重,减少了存储服务器或存储器的CPU的资源消耗,从而解决了存储服务器或存储器的CPU资源浪费的问题。
图4为本发明数据缩减的方法实施例二的流程图,如图4所示,本实施例的方法可以包括:
步骤401、根据待存储数据的位置信息,确定是否需要对所述待存储数据中的待存储数据块进行去重处理;
具体的,根据所述待存储数据对应的存储地址与预设存储地址的相对位置关系,确定是否需要对所述存储数据块进行去重处理;
其中,所述预设存储地址包括第一预设存储地址和第二预设存储地址;所述第一预设存储地址与所述第二预设存储地址之间的数据为不需要去重的数据。
若需要,则执行步骤402;否则,执行步骤403。
其中,所述第一预设存储地址和所述第二预设存储地址为第一段存储空间所对应的存储地址的边界值;所述第一段存储空间为存储介质中存储不需要去重的数据的一段存储空间。
可选的,所述存储介质包括:磁盘、U盘、光盘等。
例如,文件系统中存储的内容可分为数据和元数据。数据是指普通文件中的实际数据,元数据指用来描述一个文件的特征的系统数据,例如访问权限、访问时间、修改时间、修改人等。由于对一个文件的任何操作都会造成元数据的变化,因此,元数据为不需要去重的数据。
由于元数据通常存储在磁盘分区前1/8的存储空间,因此可以将第一预设存储地址设置为磁盘分区前1/8存储空间的起始地址,将第二预设存储地址设置为磁盘分区前1/8存储空间的终止地址,通过确定待存储数据对应的存储地址是否在所述第一预设存储地址与所述第二预设存储地址之间,来确定是否需要对待存储数据中的待存储数据块进行去重处理。当待存储数据对应的存储地址在所述第一预设存储地址与所述第二预设存储地址之间时,则确定不需要对待存储数据中的待存储数据块进行去重处理。
可选的,所述预设存储地址,还可以包括:第三预设存储地址和第四预设存储地址;所述第三预设存储地址与所述第四预设存储地址之间的数据为需要去重的数据。
可选的,所述第三预设存储地址和所述第四预设存储地址为第二段存储空间所对应的存储地址的边界值;所述第二段存储空间为存储介质中存储需要去重的数据的一段存储空间。
步骤402、对所述待存储数据块进行去重处理;
需要说明的是,步骤402与步骤302相同,在此不再赘述。
步骤403、对所述待存储数据块进行压缩处理。
需要说明的是,步骤403与步骤303相同,在此不再赘述。
本实施例中,通过根据所述待存储数据对应的存储地址与预设存储地址的相对位置关系,确定是否需要对所述存储数据块进行去重处理;若需要,则对所述待存储数据块进行去重处理;若不需要,则对所述待存储数据块进行压缩处理;使得存储服务器或存储器对无法去重或去重率低的数据块不再进行去重处理;避免了对无法去重或去重率低的数据块的指纹计算和查重,减少了存储服务器或存储器的CPU的资源消耗,从而解决了存储服务器或存储器的CPU资源浪费的问题。
数据缩减的方法实施例三
可选的,在数据缩减的方法实施例二的基础上,步骤401具体还可以为:根据所述待存储数据对应的存储地址及预先存储的位置类规则,确定是否需要对所述待存储数据块进行去重处理;
其中,所述位置类规则,包括根据待存储数据对应的存储地址与预设存储地址之间的相对位置关系所确定的规则;所述预设存储地址包括第一预设存储地址和第二预设存储地址;所述第一预设存储地址与所述第二预设存储地址之间的数据为不需要去重的数据。
本实施例,通过将待存储数据对应的存储地址与预先存储的位置类规则中的各条规则进行比较,确定是否需要对所述待存储数据块进行去重处理。
例如,预先存储的位置类规则,如表1所示:
表1
其中,loc为待存储数据对应的存储位置;N1、N2、N3、N4为预设存储地址,且N1大于N2,N3大于N1,N4小于N2。
本实施例中,通过根据待存储数据对应的存储地址及预先存储的位置类规则,确定是否需要对所述待存储数据中的待存储数据块进行去重处理;若需要,则对所述待存储数据块进行去重处理;若不需要,则对所述待存储数据块进行压缩处理;使得存储服务器或存储器对无法去重或去重率低的数据块不再进行去重处理;避免了对无法去重或去重率低的数据块的指纹计算和查重,减少了存储服务器或存储器的CPU的资源消耗,从而解决了存储服务器或存储器的CPU资源浪费的问题。
图5为本发明数据缩减的方法实施例四的流程图,如图5所示,本实施例的方法可以包括:
步骤501、根据待存储数据中的待存储数据块的内容信息,确定是否需要对所述待存储数据块进行去重处理;
具体的,根据所述待存储数据块的第一预设偏移位置与第二预设偏移位置之间的内容与预设内容的匹配关系,确定是否需要对所述待存储数据块进行去重处理;
其中,所述预设内容包括不需要去重的待存储数据块所需要包括的内容;所述第一预设偏移位置及所述第二预设偏移位置用于指示所述预设内容在待存储数据块中的相对位置。
若需要,则执行步骤502;否则,执行步骤503。
可选的,所述内容包括:标签。
例如,对于桌面(windows)新技术文件系统(NTFS,New Technology FileSystem)的主文件表(MFT,Master File Table)分区中每个1K的MFT记录,由于这些1K数据块中包含的是日期、时间等信息,因此去重率不高。并且,由于这些1K数据块的前四个字节的内容都为标签“FILE”,因此对于1K的数据块可以将第一预设偏移位置设置为0,将第二预设偏移位置设置为3,通过确定第一预设偏移位置与第二预设偏移位置之间的内容是否为“FILE”,来确定是否需要对该块进行去重。当待存储数据块第一预设偏移位置与第二预设偏移位置之间的内容(也即,前四个字节)为“FILE”(也即,与预设内容匹配)时,确定不需要对该待存储数据块进行去重处理。
可选的,所述预设内容还可以包括需要去重的待存储数据块所需要包括的内容;
可选的,根据所述待存储数据块的第一预设偏移位置与第二预设偏移位置之间的内容与预设内容的匹配关系,确定是否需要对所述待存储数据块进行去重处理,还包括:
当所述待存储数据块的第一预设偏移位置与第二预设偏移位置之间的内容为需要去重的待存储数据块所需包括的内容时,则确定需要对所述待存储数据块进行去重处理。
步骤502、对所述待存储数据块进行去重处理;
需要说明的是,步骤502与步骤302相同,在此不再赘述。
步骤503、对所述待存储数据块进行压缩处理。
需要说明的是,步骤503与步骤303相同,在此不再赘述。
本实施例中,通过根据所述待存储数据块的第一预设偏移位置与第二预设偏移位置之间的内容与预设内容的匹配关系,确定是否需要对所述待存储数据块进行去重处理;若需要,则对所述待存储数据块进行去重处理;若不需要,则对所述待存储数据块进行压缩处理;使得存储服务器或存储器对无法去重或去重率低的数据块不再进行去重处理;避免了对无法去重或去重率低的数据块的指纹计算和查重,减少了存储服务器或存储器的CPU的资源消耗,从而解决了存储服务器的CPU资源浪费的问题。
数据缩减的方法实施例五
可选的,在本发明数据缩减的方法实施例四的基础上,步骤501具体还可以为:根据所述待存储数据块的内容信息及预先存储的内容类规则,确定是否需要对所述待存储数据块进行去重处理;
其中,所述内容类规则,包括:根据待存储数据块的第一预设偏移位置和第二预设偏移位置之间的内容与预设内容之间的匹配关系所确定的规则;
其中,所述预设内容包括不需要去重的待存储数据块所需要包括的内容;所述第一预设偏移位置及所述第二预设偏移位置用于指示所述预设内容在待存储数据块中的相对位置。
本实施例,通过将待存储数据块的内容信息与预先存储的内容类规则中的各条规则进行比较,确定是否需要对所述待存储数据块进行去重处理。
例如,预先存储的内容类规则,如表2所示:
表2
其中,strl1、strl2为预设内容;n1、n2、n3、n4为预设偏移地址,且n2大于n1,n4大于n3,n3大于n2。
本实施例中,通过根据所述待存储数据块的内容信息及预先存储的内容类规则,确定是否需要对所述待存储数据块进行去重处理;若需要,则对所述待存储数据块进行去重处理;若不需要,则对所述待存储数据块进行压缩处理;使得存储服务器或存储器对无法去重或去重率低的数据块不再进行去重处理;避免了对无法去重或去重率低的数据块的指纹计算和查重,减少了存储服务器或存储器的CPU的资源消耗,从而解决了存储服务器的CPU资源浪费的问题。
图6为本发明数据缩减装置实施例一的结构示意图,该装置可以为存储服务器或包括控制单元的存储器,如图6所示,本实施例的数据缩减装置可以包括:确定模块601和处理模块602。其中,确定模块601,用于根据待存储数据的特征信息,确定是否需要对所述待存储数据中的待存储数据块进行去重处理;处理模块602,用于当确定模块601确定需要对所述待存储数据块进行去重处理时,对所述待存储数据块进行去重处理;否则,对所述待存储数据块进行压缩处理。
可选的,确定模块601,具体用于:根据所述待存储数据的位置信息,和/或所述待存储数据块的内容信息,确定是否需要对所述待存储数据块进行去重处理。
本实施例的数据缩减装置,可以用于执行图3所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
数据缩减装置实施例二
在本发明数据缩减装置实施例一的基础上,可选的,确定模块601,具体用于:根据所述待存储数据对应的存储地址与预设存储地址的相对位置关系,确定是否需要对所述存储数据块进行去重处理;
其中,所述预设存储地址包括第一预设存储地址和第二预设存储地址;所述第一预设存储地址与所述第二预设存储地址之间的数据为不需要去重的数据。
可选的,所述预设存储地址,还包括:第三预设存储地址和第四预设存储地址;所述第三预设存储地址与所述第四预设存储地址之间的数据为需要去重的数据。
本实施例的数据缩减装置,可以用于执行图4所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
数据缩减装置实施例三
在本发明数据缩减装置实施例一的基础上,可选的,确定模块601,具体用于:根据所述待存储数据对应的存储地址及预先存储的位置类规则,确定是否需要对所述待存储数据块进行去重处理;
其中,所述位置类规则,包括根据待存储数据对应的存储地址与预设存储地址之间的相对位置关系所确定的规则;所述预设存储地址包括第一预设存储地址和第二预设存储地址;所述第一预设存储地址与所述第二预设存储地址之间的数据为不需要去重的数据。
本实施例的数据缩减装置,可以用于执行数据缩减的方法实施例三的技术方案,其实现原理和技术效果类似,此处不再赘述。
数据缩减装置实施例四
在本发明数据缩减装置实施例一的基础上,可选的,确定模块601,具体用于:根据所述待存储数据块的第一预设偏移位置与第二预设偏移位置之间的内容与预设内容的匹配关系,确定是否需要对所述待存储数据块进行去重处理;
其中,所述预设内容包括不需要去重的待存储数据块所需要包括的内容;所述第一预设偏移位置及所述第二预设偏移位置用于指示所述预设内容在待存储数据块中的相对位置。
其中,所述内容包括:标签。
可选的,所述预设内容,还包括需要去重的待存储数据块所需要包括的内容。
本实施例的数据缩减装置,可以用于执行图5所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
数据缩减装置实施例五
在本发明数据缩减装置实施例一的基础上,可选的,确定模块601,具体用于:根据所述待存储数据块的内容信息及预先存储的内容类规则,确定是否需要对所述待存储数据块进行去重处理;
其中,所述内容类规则,包括:根据待存储数据块的第一预设偏移位置和第二预设偏移位置之间的内容与预设内容之间的匹配关系所确定的规则;
其中,所述预设内容包括不需要去重的待存储数据块所需要包括的内容;所述第一预设偏移位置及所述第二预设偏移位置用于指示所述预设内容在待存储数据块中的相对位置。
其中,所述内容包括:标签。
可选的,所述预设内容,还包括需要去重的待存储数据块所需要包括的内容。
本实施例的数据缩减装置,可以用于执行数据缩减的方法实施例五的技术方案,其实现原理和技术效果类似,此处不再赘述。
图7为本发明数据缩减装置实施例六的结构示意图,如图7所示,本实施例的数据缩减装置可以包括:处理器701和存储器702。该数据缩减装置还可以包括发射器703、接收器704。发射器703和接收器704可以和处理器701相连。其中,发射器703用于发送数据或信息,接收器704用于接收数据或信息,存储器702存储执行指令,当数据缩减装置运行时,处理器701与存储器702之间通信,处理器701调用存储器702中的执行指令,用于执行以下操作:
根据待存储数据的特征信息,确定是否需要对所述待存储数据中的待存储数据块进行去重处理;若需要,则对所述待存储数据块进行去重处理;若不需要,则对所述待存储数据块进行压缩处理。
可选的,所述根据待存储数据的特征信息,确定是否需要对所述待存储数据中的待存储数据块进行去重处理,包括:根据所述待存储数据的位置信息,和/或所述待存储数据块的内容信息,确定是否需要对所述待存储数据块进行去重处理。
可选的,所述根据所述待存储数据的位置信息,确定是否需要对所述待存储数据块进行去重处理,包括:根据所述待存储数据对应的存储地址与预设存储地址的相对位置关系,确定是否需要对所述存储数据块进行去重处理;
其中,所述预设存储地址包括第一预设存储地址和第二预设存储地址;所述第一预设存储地址与所述第二预设存储地址之间的数据为不需要去重的数据。
可选的,所述预设存储地址,还包括:第三预设存储地址和第四预设存储地址;所述第三预设存储地址与所述第四预设存储地址之间的数据为需要去重的数据。
可选的,所述不需要去重的数据为元数据。
可选的,所述根据所述待存储数据块的内容信息,确定是否需要对所述待存储数据块进行去重处理,包括:根据所述待存储数据块的第一预设偏移位置与第二预设偏移位置之间的内容与预设内容的匹配关系,确定是否需要对所述待存储数据块进行去重处理;
其中,所述预设内容包括不需要去重的待存储数据块所需要包括的内容;所述第一预设偏移位置及所述第二预设偏移位置用于指示所述预设内容在待存储数据块中的相对位置。
可选的,所述预设内容,还包括需要去重的待存储数据块所需要包括的内容。
可选的,所述内容包括:标签。
可选的,所述不需要去重的待存储数据块所需要包括的内容为FILE;若所述待存储数据块的大小为1K,则所述第一预设偏移位置为0,所述第二预设偏移位置为3。
本实施例的数据缩减装置,可以用于执行本发明任意实施例所提供的数据缩减的方法的技术方案,其实现原理和技术效果类似,此处不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (18)

1.一种数据缩减的方法,其特征在于,包括:
根据待存储数据的特征信息,确定是否需要对所述待存储数据中的待存储数据块进行去重处理;
若需要,则对所述待存储数据块进行去重处理;
若不需要,则对所述待存储数据块进行压缩处理。
2.根据权利要求1所述的方法,其特征在于,所述根据待存储数据的特征信息,确定是否需要对所述待存储数据中的待存储数据块进行去重处理,包括:
根据所述待存储数据的位置信息,和/或所述待存储数据块的内容信息,确定是否需要对所述待存储数据块进行去重处理。
3.根据权利要求2所述的方法,其特征在于,所述根据所述待存储数据的位置信息,确定是否需要对所述待存储数据块进行去重处理,包括:
根据所述待存储数据对应的存储地址与预设存储地址的相对位置关系,确定是否需要对所述存储数据块进行去重处理;
其中,所述预设存储地址包括第一预设存储地址和第二预设存储地址;所述第一预设存储地址与所述第二预设存储地址之间的数据为不需要去重的数据。
4.根据权利要求3所述的方法,其特征在于,所述预设存储地址,还包括:第三预设存储地址和第四预设存储地址;所述第三预设存储地址与所述第四预设存储地址之间的数据为需要去重的数据。
5.根据权利要求3或4所述的方法,其特征在于,所述不需要去重的数据为元数据。
6.根据权利要求2所述的方法,其特征在于,所述根据所述待存储数据块的内容信息,确定是否需要对所述待存储数据块进行去重处理,包括:
根据所述待存储数据块的第一预设偏移位置与第二预设偏移位置之间的内容与预设内容的匹配关系,确定是否需要对所述待存储数据块进行去重处理;
其中,所述预设内容包括不需要去重的待存储数据块所需要包括的内容;所述第一预设偏移位置及所述第二预设偏移位置用于指示所述预设内容在待存储数据块中的相对位置。
7.根据权利要求6所述的方法,其特征在于,所述预设内容,还包括需要去重的待存储数据块所需要包括的内容。
8.根据权利要求6或7所述的方法,其特征在于,所述内容包括:标签。
9.根据权利要求6~8任一项所述的方法,其特征在于,所述不需要去重的待存储数据块所需要包括的内容为FILE;若所述待存储数据块的大小为1K,则所述第一预设偏移位置为0,所述第二预设偏移位置为3。
10.一种数据缩减装置,所述装置为存储服务器,或者为包括控制单元的存储器,所述装置包括:
确定模块,用于根据待存储数据的特征信息,确定是否需要对所述待存储数据中的待存储数据块进行去重处理;
处理模块,用于当所述确定模块确定需要对所述待存储数据块进行去重处理时,对所述待存储数据块进行去重处理;否则,对所述待存储数据块进行压缩处理。
11.根据权利要求10所述的装置,其特征在于,所述确定模块,具体用于:
根据所述待存储数据的位置信息,和/或所述待存储数据块的内容信息,确定是否需要对所述待存储数据块进行去重处理。
12.根据权利要求11所述的装置,其特征在于,所述确定模块,具体用于:
根据所述待存储数据对应的存储地址与预设存储地址的相对位置关系,确定是否需要对所述存储数据块进行去重处理;
其中,所述预设存储地址包括第一预设存储地址和第二预设存储地址;所述第一预设存储地址与所述第二预设存储地址之间的数据为不需要去重的数据。
13.根据权利要求12所述的装置,其特征在于,所述预设存储地址,还包括:第三预设存储地址和第四预设存储地址;所述第三预设存储地址与所述第四预设存储地址之间的数据为需要去重的数据。
14.根据权利要求12或13所述的装置,其特征在于,所述不需要去重的数据为元数据。
15.根据权利要求11所述的装置,其特征在于,所述确定模块,具体用于:
根据所述待存储数据块的第一预设偏移位置与第二预设偏移位置之间的内容与预设内容的匹配关系,确定是否需要对所述待存储数据块进行去重处理;
其中,所述预设内容包括不需要去重的待存储数据块所需要包括的内容;所述第一预设偏移位置及所述第二预设偏移位置用于指示所述预设内容在待存储数据块中的相对位置。
16.根据权利要求15所述的装置,其特征在于,所述预设内容,还包括需要去重的待存储数据块所需要包括的内容。
17.根据权利要求15或16所述的装置,其特征在于,所述内容包括:标签。
18.根据权利要求15~17任一项所述的装置,其特征在于,所述不需要去重的待存储数据块所需要包括的内容为FILE;若所述待存储数据块的大小为1K,则所述第一预设偏移位置为0,所述第二预设偏移位置为3。
CN201410767371.2A 2014-12-12 2014-12-12 数据缩减的方法及装置 Active CN104484132B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410767371.2A CN104484132B (zh) 2014-12-12 2014-12-12 数据缩减的方法及装置
PCT/CN2015/096568 WO2016091138A1 (zh) 2014-12-12 2015-12-07 数据缩减的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410767371.2A CN104484132B (zh) 2014-12-12 2014-12-12 数据缩减的方法及装置

Publications (2)

Publication Number Publication Date
CN104484132A true CN104484132A (zh) 2015-04-01
CN104484132B CN104484132B (zh) 2017-11-17

Family

ID=52758680

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410767371.2A Active CN104484132B (zh) 2014-12-12 2014-12-12 数据缩减的方法及装置

Country Status (2)

Country Link
CN (1) CN104484132B (zh)
WO (1) WO2016091138A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105302495A (zh) * 2015-11-20 2016-02-03 华为技术有限公司 数据存储方法及装置
WO2016091138A1 (zh) * 2014-12-12 2016-06-16 华为技术有限公司 数据缩减的方法及装置
CN107624179A (zh) * 2015-06-26 2018-01-23 英特尔公司 高效固态驱动器数据压缩方案和布局
CN108984103A (zh) * 2017-06-02 2018-12-11 伊姆西Ip控股有限责任公司 用于去重的方法和设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10901951B2 (en) 2018-07-17 2021-01-26 International Business Machines Corporation Memory compaction for append-only formatted data in a distributed storage network

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020116402A1 (en) * 2001-02-21 2002-08-22 Luke James Steven Information component based data storage and management
CN101916171A (zh) * 2010-07-16 2010-12-15 中国科学院计算技术研究所 一种并发层次式的重复数据消除方法和系统
US20110184908A1 (en) * 2010-01-28 2011-07-28 Alastair Slater Selective data deduplication
CN104063374A (zh) * 2013-03-18 2014-09-24 阿里巴巴集团控股有限公司 一种对数据进行去重的方法和设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080243769A1 (en) * 2007-03-30 2008-10-02 Symantec Corporation System and method for exporting data directly from deduplication storage to non-deduplication storage
CN102591855A (zh) * 2012-01-13 2012-07-18 广州从兴电子开发有限公司 一种数据标识方法及系统
CN104484132B (zh) * 2014-12-12 2017-11-17 华为技术有限公司 数据缩减的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020116402A1 (en) * 2001-02-21 2002-08-22 Luke James Steven Information component based data storage and management
US20110184908A1 (en) * 2010-01-28 2011-07-28 Alastair Slater Selective data deduplication
CN101916171A (zh) * 2010-07-16 2010-12-15 中国科学院计算技术研究所 一种并发层次式的重复数据消除方法和系统
CN104063374A (zh) * 2013-03-18 2014-09-24 阿里巴巴集团控股有限公司 一种对数据进行去重的方法和设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016091138A1 (zh) * 2014-12-12 2016-06-16 华为技术有限公司 数据缩减的方法及装置
CN107624179A (zh) * 2015-06-26 2018-01-23 英特尔公司 高效固态驱动器数据压缩方案和布局
CN105302495A (zh) * 2015-11-20 2016-02-03 华为技术有限公司 数据存储方法及装置
CN105302495B (zh) * 2015-11-20 2019-05-28 华为技术有限公司 数据存储方法及装置
CN108984103A (zh) * 2017-06-02 2018-12-11 伊姆西Ip控股有限责任公司 用于去重的方法和设备
US11461276B2 (en) 2017-06-02 2022-10-04 EMC IP Holding Company LLC Method and device for deduplication

Also Published As

Publication number Publication date
WO2016091138A1 (zh) 2016-06-16
CN104484132B (zh) 2017-11-17

Similar Documents

Publication Publication Date Title
US9471386B2 (en) Allocating resources to tasks in a build process
EP3376393B1 (en) Data storage method and apparatus
CN107229420B (zh) 数据存储方法、读取方法、删除方法和数据操作系统
CN103765373B (zh) 数据存储方法、数据存储装置和存储设备
CN104484132A (zh) 数据缩减的方法及装置
CN108268344B (zh) 一种数据处理方法和装置
CN112748863B (zh) 用于处理数据的方法、电子设备和计算机程序产品
CN104239518A (zh) 重复数据删除方法和装置
WO2015096454A1 (zh) 一种数据处理方法及装置
CN105260639A (zh) 一种脸部识别系统的数据更新的方法及装置
CN103353850A (zh) 虚拟机热迁移内存处理方法、装置和系统
CN104461641A (zh) 一种数据烧写方法、系统、烧写设备以及目标设备
CN111061690B (zh) 一种基于rac的数据库日志文件读取方法和装置
CN105243027A (zh) 在存储设备中存储数据的方法和存储控制器
US20220237158A1 (en) Method, electronic device, and computer program product for data processing
CN105183399A (zh) 一种基于弹性块存储的数据写、读方法及装置
US8549223B1 (en) Systems and methods for reclaiming storage space on striped volumes
CN104572492A (zh) 一种烧录数据到fat32分区的方法和装置
WO2017147794A1 (zh) 差异数据备份的方法和设备
CN104375905A (zh) 一种基于数据块的增量备份的方法和系统
CN112912743B (zh) 算力的控制方法、装置、设备及存储介质
CN105224418A (zh) 一种数据备份方法和装置
CN104778252A (zh) 索引的存储方法和装置
CN104407990A (zh) 一种磁盘访问方法及装置
US10248677B1 (en) Scaling an SSD index on a deduplicated storage system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220207

Address after: 550025 Huawei cloud data center, jiaoxinggong Road, Qianzhong Avenue, Gui'an New District, Guiyang City, Guizhou Province

Patentee after: Huawei Cloud Computing Technologies Co.,Ltd.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd.