CN104484132A - 数据缩减的方法及装置 - Google Patents
数据缩减的方法及装置 Download PDFInfo
- Publication number
- CN104484132A CN104484132A CN201410767371.2A CN201410767371A CN104484132A CN 104484132 A CN104484132 A CN 104484132A CN 201410767371 A CN201410767371 A CN 201410767371A CN 104484132 A CN104484132 A CN 104484132A
- Authority
- CN
- China
- Prior art keywords
- stored
- data block
- duplicate removal
- data
- memory address
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 156
- 230000009467 reduction Effects 0.000 title claims abstract description 54
- 230000008569 process Effects 0.000 claims description 105
- 238000007906 compression Methods 0.000 claims description 24
- 239000002699 waste material Substances 0.000 abstract description 13
- 238000010586 diagram Methods 0.000 description 10
- 238000005192 partition Methods 0.000 description 3
- 239000007787 solid Substances 0.000 description 2
- 101100311217 Caenorhabditis elegans strl-1 gene Proteins 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0638—Organizing or formatting or addressing of data
- G06F3/064—Management of blocks
- G06F3/0641—De-duplication techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0608—Saving storage space on storage systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种数据缩减的方法及装置。一种数据缩减的方法,包括:根据待存储数据的特征信息,确定是否需要对所述待存储数据中的待存储数据块进行去重处理;若需要,则对所述待存储数据块进行去重处理;若不需要,则对所述待存储数据块进行压缩处理。本发明实施例可以避免对无法去重或去重率低的数据块的指纹计算和查重,减少了存储服务器或存储器的CPU的资源消耗,从而解决了存储服务器或存储器的CPU资源浪费的问题。
Description
技术领域
本发明实施例涉及存储技术,尤其涉及一种数据缩减的方法及装置。
背景技术
随着需要存储的数据信息的不断增加,数据缩减技术在数据存储中的作用越来越重要。
现有技术中,数据缩减主要包括分块处理、去重处理、压缩处理三个过程;其中,去重处理包括指纹计算和查重。首先,存储服务器接收客户端发送的写入请求,该写入请求包括:待存储数据;其次,存储服务器通过分块处理对待存储数据进行数据分块,将待存储数据分为预设大小的待存储数据块;再次,存储服务器对每一待存储数据块通过指纹算法分别获得该待存储数据块对应的指纹标识,并通过查重确定获得的指纹标识与指纹表中已存储的指纹标识是否相同;若相同,则表明该指纹标识对应的待存储数据块与存储服务器中已存储的数据块重复,不需要存储;若不同,则将该指纹标识所对应的待存储数据块进行压缩处理,将压缩处理后的待存储数据块存储至存储服务器中,并将该指纹标识添加至指纹表。
但是,现有技术中,在进行数据缩减时存在存储服务器的中央处理器(CPU,Central Processing Unit)资源浪费的问题。
发明内容
本发明实施例提供一种数据缩减的方法及装置,用以解决存储服务器或存储器的CPU资源浪费的问题。
第一方面,本发明实施例提供一种数据缩减的方法,包括:
根据待存储数据的特征信息,确定是否需要对所述待存储数据中的待存储数据块进行去重处理;
若需要,则对所述待存储数据块进行去重处理;
若不需要,则对所述待存储数据块进行压缩处理。
结合第一方面,在第一方面的第一种可能实现的方式中,所述根据待存储数据的特征信息,确定是否需要对所述待存储数据中的待存储数据块进行去重处理,包括:根据所述待存储数据的位置信息,和/或所述待存储数据块的内容信息,确定是否需要对所述待存储数据块进行去重处理。
结合第一方面的第一种可能实现的方式,在第一方面的第二种可能实现的方式中,所述根据所述待存储数据的位置信息,确定是否需要对所述待存储数据块进行去重处理,包括:根据所述待存储数据对应的存储地址与预设存储地址的相对位置关系,确定是否需要对所述存储数据块进行去重处理;
其中,所述预设存储地址包括第一预设存储地址和第二预设存储地址;所述第一预设存储地址与所述第二预设存储地址之间的数据为不需要去重的数据。
结合第一方面的第二种可能实现的方式,在第一方面的第三种可能实现的方式中,所述预设存储地址,还包括:第三预设存储地址和第四预设存储地址;所述第三预设存储地址与所述第四预设存储地址之间的数据为需要去重的数据。
结合第一方面的第二种或第三种可能实现的方式,在第一方面的第四种可能实现的方式中,所述不需要去重的数据为元数据。
结合第一方面的第一种可能实现的方式,在第一方面的第五种可能实现的方式中,所述根据所述待存储数据块的内容信息,确定是否需要对所述待存储数据块进行去重处理,包括:根据所述待存储数据块的第一预设偏移位置与第二预设偏移位置之间的内容与预设内容的匹配关系,确定是否需要对所述待存储数据块进行去重处理;
其中,所述预设内容包括不需要去重的待存储数据块所需要包括的内容;所述第一预设偏移位置及所述第二预设偏移位置用于指示所述预设内容在待存储数据块中的相对位置。
结合第一方面的第五种可能实现的方式,在第一方面的第六种可能实现的方式中,所述预设内容,还包括需要去重的待存储数据块所需要包括的内容。
结合第一方面的第五种或第六种可能实现的方式,在第一方面的第七种可能实现的方式中,所述内容包括:标签。
结合第一方面的第五种至第七种任一种可能实现的方式,在第一方面的第八种可能实现的方式中,所述不需要去重的待存储数据块所需要包括的内容为FILE;若所述待存储数据块的大小为1K,则所述第一预设偏移位置为0,所述第二预设偏移位置为3。
第二方面,本发明实施例提供一种数据缩减的装置,所述装置为存储服务器,或者为包括控制单元的存储器,所述装置包括:
确定模块,用于根据待存储数据的特征信息,确定是否需要对所述待存储数据中的待存储数据块进行去重处理;
处理模块,用于当所述确定模块确定需要对所述待存储数据块进行去重处理时,对所述待存储数据块进行去重处理;否则,对所述待存储数据块进行压缩处理。
结合第二方面,在第二方面的第一种可能实现的方式中,所述确定模块,具体用于:根据所述待存储数据的位置信息,和/或所述待存储数据块的内容信息,确定是否需要对所述待存储数据块进行去重处理。
结合第二方面的第一种可能实现的方式,在第二方面的第二种可能实现的方式中,所述确定模块,具体用于:根据所述待存储数据对应的存储地址与预设存储地址的相对位置关系,确定是否需要对所述存储数据块进行去重处理;
其中,所述预设存储地址包括第一预设存储地址和第二预设存储地址;所述第一预设存储地址与所述第二预设存储地址之间的数据为不需要去重的数据。
结合第二方面的第二种可能实现的方式,在第二方面的第三种可能实现的方式中,所述预设存储地址,还包括:第三预设存储地址和第四预设存储地址;所述第三预设存储地址与所述第四预设存储地址之间的数据为需要去重的数据。
结合第二方面的第二种或第三种可能实现的方式,在第二方面的第四种可能实现的方式中,所述不需要去重的数据为元数据。
结合第二方面的第一种可能实现的方式,在第二方面的第五种可能实现的方式中,所述确定模块,具体用于:根据所述待存储数据块的第一预设偏移位置与第二预设偏移位置之间的内容与预设内容的匹配关系,确定是否需要对所述待存储数据块进行去重处理;
其中,所述预设内容包括不需要去重的待存储数据块所需要包括的内容;所述第一预设偏移位置及所述第二预设偏移位置用于指示所述预设内容在待存储数据块中的相对位置。
结合第二方面的第五种可能实现的方式,在第人方面的第六种可能实现的方式中,所述预设内容,还包括需要去重的待存储数据块所需要包括的内容。
结合第二方面的第五种或第六种可能实现的方式,在第二方面的第七种可能实现的方式中,所述内容包括:标签。
结合第二方面的第五种至第七种任一种可能实现的方式,在第二方面的第八种可能实现的方式中,所述不需要去重的待存储数据块所需要包括的内容为FILE;若所述待存储数据块的大小为1K,则所述第一预设偏移位置为0,所述第二预设偏移位置为3。
本发明实施例提供一种数据缩减的方法及装置,通过根据待存储数据的特征信息,确定是否需要对所述待存储数据中的待存储数据块进行去重处理;若需要,则对所述待存储数据块进行去重处理;若不需要,则对所述待存储数据块进行压缩处理;使得存储服务器对无法去重或去重率低的数据块不再进行去重处理;避免了对无法去重或去重率低的数据块的指纹计算和查重,减少了存储服务器或存储器的CPU的资源消耗,从而解决了存储服务器或存储器的CPU资源浪费的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明数据缩减方法的应用场景示意图一;
图2为本发明数据缩减方法的应用场景示意图二;
图3为本发明数据缩减的方法实施例一的流程图;
图4为本发明数据缩减的方法实施例二的流程图;
图5为本发明数据缩减的方法实施例四的流程图;
图6为本发明数据缩减装置实施例一的结构示意图;
图7为本发明数据缩减装置实施例六的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明数据缩减方法的应用场景示意图一;如图1所示,存储系统中,存储服务器11接收客户端12发送的写入请求;存储服务器11中的CPU 111通过分块处理对待存储数据进行分块处理;CPU 111对每一待存储数据块通过指纹算法分别获得该待存储数据块对应的指纹标识,并通过查重确定所获得指纹标识与指纹表中已存储的指纹标识是否相同;若相同,则表明该指纹标识对应的待存储数据块与存储服务器中已存储的数据块重复,不需要存储;若不同,则将该指纹标识所对应的待存储数据块进行压缩处理,将压缩处理后的待存储数据块存储至存储服务器11中的存储器112中,并将该指纹标识添加至指纹表。现有技术中,当待存储数据块无法去重(也即,待存储数据块的指纹标识与指纹表中已存储的指纹标识必定不相同)或去重率低(也即,待存储数据块的指纹标识与指纹表中已存储的指纹标识重复的概率非常小)时,待存储数据块仍然要经过去重处理中的指纹计算和查重:因此,存在存储服务器11的CPU资源浪费的问题。
本发明的数据缩减方法还可以应用于存储服务器内部第一处理单元向第二处理单元发送数据写入请求,第二处理单元对待存储数据块进行分块处理、去重处理的场景;类似的,这种场景下也存在存储服务器的CPU资源浪费的问题。
图2为本发明数据缩减方法的应用场景示意图二;如图2所示,存储系统中,存储器21接收存储服务器22发送的写入请求;存储器21中的CPU 211对待存储数据进行分块处理、去重处理;类似的,现有技术中也存在存储器21的CPU资源浪费的问题。
可选的,存储器21为包括控制单元的存储器;例如,可以为固态硬盘(SSD,Solid State Drives),或者,也可以为磁盘。
需要说明的是,任何需要进行数据缩减处理的场景都是本发明数据缩减的方法的应用场景,都属于本发明的保护范围。
图3为本发明数据缩减的方法实施例一的流程图,如图3所示,本实施例的方法可以包括:
步骤301、根据待存储数据的特征信息,确定是否需要对所述待存储数据中的待存储数据块进行去重处理;
若需要,则执行步骤302;否则,执行步骤303。
其中,待存储数据的特征信息包括:待存储数据的位置信息,和/或待存储数据块的内容信息。
步骤302、对所述待存储数据块进行去重处理;
需要说明的是,在执行步骤302后,若确定所述待存储数据块与已存储的数据块重复,则不需要对所述待存储数据块进行存储;若确定所述待存储数据块与已存储的数据块不重复,则将所述待存储数据块进行压缩处理,并对压缩处理后的待存储数据块进行存储。
步骤303、对所述待存储数据块进行压缩处理。
现有技术中,存储服务器或存储器对所有的待存储数据块都进行去重处理;本发明中,存储服务器或存储器根据待存储数据的特征信息,确定是否需要对所述待存储数据中的待存储数据块进行去重处理;若需要,则对所述待存储数据块进行去重处理;若不需要,则对所述待存储数据块进行压缩处理。
现有技术中,由于存储服务器或存储器对所有的待存储数据块都进行去重处理;因此,当待存储数据块无法去重或去重率低时,待存储数据块仍然需要经过去重处理中的指纹计算和查重;因此,存在存储服务器或存储器的CPU资源浪费的问题。本发明中,通过根据待存储数据的特征信息,确定是否需要对所述待存储数据中的待存储数据块进行去重处理;若需要,则对所述待存储数据块进行去重处理;若不需要,则对所述待存储数据块进行压缩处理;使得存储服务器或存储器对无法去重或去重率低的数据块不再进行去重处理;避免了对无法去重或去重率低的数据块的指纹计算和查重,减少了存储服务器或存储器的CPU的资源消耗,从而解决了存储服务器或存储器的CPU资源浪费的问题。
本实施例中,通过根据待存储数据的特征信息,确定是否需要对所述待存储数据中的待存储数据块进行去重处理;若需要,则对所述待存储数据块进行去重处理;若不需要,则对所述待存储数据块进行压缩处理;使得存储服务器或存储器对无法去重或去重率低的数据块不再进行去重处理;避免了对无法去重或去重率低的数据块的指纹计算和查重,减少了存储服务器或存储器的CPU的资源消耗,从而解决了存储服务器或存储器的CPU资源浪费的问题。
图4为本发明数据缩减的方法实施例二的流程图,如图4所示,本实施例的方法可以包括:
步骤401、根据待存储数据的位置信息,确定是否需要对所述待存储数据中的待存储数据块进行去重处理;
具体的,根据所述待存储数据对应的存储地址与预设存储地址的相对位置关系,确定是否需要对所述存储数据块进行去重处理;
其中,所述预设存储地址包括第一预设存储地址和第二预设存储地址;所述第一预设存储地址与所述第二预设存储地址之间的数据为不需要去重的数据。
若需要,则执行步骤402;否则,执行步骤403。
其中,所述第一预设存储地址和所述第二预设存储地址为第一段存储空间所对应的存储地址的边界值;所述第一段存储空间为存储介质中存储不需要去重的数据的一段存储空间。
可选的,所述存储介质包括:磁盘、U盘、光盘等。
例如,文件系统中存储的内容可分为数据和元数据。数据是指普通文件中的实际数据,元数据指用来描述一个文件的特征的系统数据,例如访问权限、访问时间、修改时间、修改人等。由于对一个文件的任何操作都会造成元数据的变化,因此,元数据为不需要去重的数据。
由于元数据通常存储在磁盘分区前1/8的存储空间,因此可以将第一预设存储地址设置为磁盘分区前1/8存储空间的起始地址,将第二预设存储地址设置为磁盘分区前1/8存储空间的终止地址,通过确定待存储数据对应的存储地址是否在所述第一预设存储地址与所述第二预设存储地址之间,来确定是否需要对待存储数据中的待存储数据块进行去重处理。当待存储数据对应的存储地址在所述第一预设存储地址与所述第二预设存储地址之间时,则确定不需要对待存储数据中的待存储数据块进行去重处理。
可选的,所述预设存储地址,还可以包括:第三预设存储地址和第四预设存储地址;所述第三预设存储地址与所述第四预设存储地址之间的数据为需要去重的数据。
可选的,所述第三预设存储地址和所述第四预设存储地址为第二段存储空间所对应的存储地址的边界值;所述第二段存储空间为存储介质中存储需要去重的数据的一段存储空间。
步骤402、对所述待存储数据块进行去重处理;
需要说明的是,步骤402与步骤302相同,在此不再赘述。
步骤403、对所述待存储数据块进行压缩处理。
需要说明的是,步骤403与步骤303相同,在此不再赘述。
本实施例中,通过根据所述待存储数据对应的存储地址与预设存储地址的相对位置关系,确定是否需要对所述存储数据块进行去重处理;若需要,则对所述待存储数据块进行去重处理;若不需要,则对所述待存储数据块进行压缩处理;使得存储服务器或存储器对无法去重或去重率低的数据块不再进行去重处理;避免了对无法去重或去重率低的数据块的指纹计算和查重,减少了存储服务器或存储器的CPU的资源消耗,从而解决了存储服务器或存储器的CPU资源浪费的问题。
数据缩减的方法实施例三
可选的,在数据缩减的方法实施例二的基础上,步骤401具体还可以为:根据所述待存储数据对应的存储地址及预先存储的位置类规则,确定是否需要对所述待存储数据块进行去重处理;
其中,所述位置类规则,包括根据待存储数据对应的存储地址与预设存储地址之间的相对位置关系所确定的规则;所述预设存储地址包括第一预设存储地址和第二预设存储地址;所述第一预设存储地址与所述第二预设存储地址之间的数据为不需要去重的数据。
本实施例,通过将待存储数据对应的存储地址与预先存储的位置类规则中的各条规则进行比较,确定是否需要对所述待存储数据块进行去重处理。
例如,预先存储的位置类规则,如表1所示:
表1
其中,loc为待存储数据对应的存储位置;N1、N2、N3、N4为预设存储地址,且N1大于N2,N3大于N1,N4小于N2。
本实施例中,通过根据待存储数据对应的存储地址及预先存储的位置类规则,确定是否需要对所述待存储数据中的待存储数据块进行去重处理;若需要,则对所述待存储数据块进行去重处理;若不需要,则对所述待存储数据块进行压缩处理;使得存储服务器或存储器对无法去重或去重率低的数据块不再进行去重处理;避免了对无法去重或去重率低的数据块的指纹计算和查重,减少了存储服务器或存储器的CPU的资源消耗,从而解决了存储服务器或存储器的CPU资源浪费的问题。
图5为本发明数据缩减的方法实施例四的流程图,如图5所示,本实施例的方法可以包括:
步骤501、根据待存储数据中的待存储数据块的内容信息,确定是否需要对所述待存储数据块进行去重处理;
具体的,根据所述待存储数据块的第一预设偏移位置与第二预设偏移位置之间的内容与预设内容的匹配关系,确定是否需要对所述待存储数据块进行去重处理;
其中,所述预设内容包括不需要去重的待存储数据块所需要包括的内容;所述第一预设偏移位置及所述第二预设偏移位置用于指示所述预设内容在待存储数据块中的相对位置。
若需要,则执行步骤502;否则,执行步骤503。
可选的,所述内容包括:标签。
例如,对于桌面(windows)新技术文件系统(NTFS,New Technology FileSystem)的主文件表(MFT,Master File Table)分区中每个1K的MFT记录,由于这些1K数据块中包含的是日期、时间等信息,因此去重率不高。并且,由于这些1K数据块的前四个字节的内容都为标签“FILE”,因此对于1K的数据块可以将第一预设偏移位置设置为0,将第二预设偏移位置设置为3,通过确定第一预设偏移位置与第二预设偏移位置之间的内容是否为“FILE”,来确定是否需要对该块进行去重。当待存储数据块第一预设偏移位置与第二预设偏移位置之间的内容(也即,前四个字节)为“FILE”(也即,与预设内容匹配)时,确定不需要对该待存储数据块进行去重处理。
可选的,所述预设内容还可以包括需要去重的待存储数据块所需要包括的内容;
可选的,根据所述待存储数据块的第一预设偏移位置与第二预设偏移位置之间的内容与预设内容的匹配关系,确定是否需要对所述待存储数据块进行去重处理,还包括:
当所述待存储数据块的第一预设偏移位置与第二预设偏移位置之间的内容为需要去重的待存储数据块所需包括的内容时,则确定需要对所述待存储数据块进行去重处理。
步骤502、对所述待存储数据块进行去重处理;
需要说明的是,步骤502与步骤302相同,在此不再赘述。
步骤503、对所述待存储数据块进行压缩处理。
需要说明的是,步骤503与步骤303相同,在此不再赘述。
本实施例中,通过根据所述待存储数据块的第一预设偏移位置与第二预设偏移位置之间的内容与预设内容的匹配关系,确定是否需要对所述待存储数据块进行去重处理;若需要,则对所述待存储数据块进行去重处理;若不需要,则对所述待存储数据块进行压缩处理;使得存储服务器或存储器对无法去重或去重率低的数据块不再进行去重处理;避免了对无法去重或去重率低的数据块的指纹计算和查重,减少了存储服务器或存储器的CPU的资源消耗,从而解决了存储服务器的CPU资源浪费的问题。
数据缩减的方法实施例五
可选的,在本发明数据缩减的方法实施例四的基础上,步骤501具体还可以为:根据所述待存储数据块的内容信息及预先存储的内容类规则,确定是否需要对所述待存储数据块进行去重处理;
其中,所述内容类规则,包括:根据待存储数据块的第一预设偏移位置和第二预设偏移位置之间的内容与预设内容之间的匹配关系所确定的规则;
其中,所述预设内容包括不需要去重的待存储数据块所需要包括的内容;所述第一预设偏移位置及所述第二预设偏移位置用于指示所述预设内容在待存储数据块中的相对位置。
本实施例,通过将待存储数据块的内容信息与预先存储的内容类规则中的各条规则进行比较,确定是否需要对所述待存储数据块进行去重处理。
例如,预先存储的内容类规则,如表2所示:
表2
其中,strl1、strl2为预设内容;n1、n2、n3、n4为预设偏移地址,且n2大于n1,n4大于n3,n3大于n2。
本实施例中,通过根据所述待存储数据块的内容信息及预先存储的内容类规则,确定是否需要对所述待存储数据块进行去重处理;若需要,则对所述待存储数据块进行去重处理;若不需要,则对所述待存储数据块进行压缩处理;使得存储服务器或存储器对无法去重或去重率低的数据块不再进行去重处理;避免了对无法去重或去重率低的数据块的指纹计算和查重,减少了存储服务器或存储器的CPU的资源消耗,从而解决了存储服务器的CPU资源浪费的问题。
图6为本发明数据缩减装置实施例一的结构示意图,该装置可以为存储服务器或包括控制单元的存储器,如图6所示,本实施例的数据缩减装置可以包括:确定模块601和处理模块602。其中,确定模块601,用于根据待存储数据的特征信息,确定是否需要对所述待存储数据中的待存储数据块进行去重处理;处理模块602,用于当确定模块601确定需要对所述待存储数据块进行去重处理时,对所述待存储数据块进行去重处理;否则,对所述待存储数据块进行压缩处理。
可选的,确定模块601,具体用于:根据所述待存储数据的位置信息,和/或所述待存储数据块的内容信息,确定是否需要对所述待存储数据块进行去重处理。
本实施例的数据缩减装置,可以用于执行图3所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
数据缩减装置实施例二
在本发明数据缩减装置实施例一的基础上,可选的,确定模块601,具体用于:根据所述待存储数据对应的存储地址与预设存储地址的相对位置关系,确定是否需要对所述存储数据块进行去重处理;
其中,所述预设存储地址包括第一预设存储地址和第二预设存储地址;所述第一预设存储地址与所述第二预设存储地址之间的数据为不需要去重的数据。
可选的,所述预设存储地址,还包括:第三预设存储地址和第四预设存储地址;所述第三预设存储地址与所述第四预设存储地址之间的数据为需要去重的数据。
本实施例的数据缩减装置,可以用于执行图4所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
数据缩减装置实施例三
在本发明数据缩减装置实施例一的基础上,可选的,确定模块601,具体用于:根据所述待存储数据对应的存储地址及预先存储的位置类规则,确定是否需要对所述待存储数据块进行去重处理;
其中,所述位置类规则,包括根据待存储数据对应的存储地址与预设存储地址之间的相对位置关系所确定的规则;所述预设存储地址包括第一预设存储地址和第二预设存储地址;所述第一预设存储地址与所述第二预设存储地址之间的数据为不需要去重的数据。
本实施例的数据缩减装置,可以用于执行数据缩减的方法实施例三的技术方案,其实现原理和技术效果类似,此处不再赘述。
数据缩减装置实施例四
在本发明数据缩减装置实施例一的基础上,可选的,确定模块601,具体用于:根据所述待存储数据块的第一预设偏移位置与第二预设偏移位置之间的内容与预设内容的匹配关系,确定是否需要对所述待存储数据块进行去重处理;
其中,所述预设内容包括不需要去重的待存储数据块所需要包括的内容;所述第一预设偏移位置及所述第二预设偏移位置用于指示所述预设内容在待存储数据块中的相对位置。
其中,所述内容包括:标签。
可选的,所述预设内容,还包括需要去重的待存储数据块所需要包括的内容。
本实施例的数据缩减装置,可以用于执行图5所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
数据缩减装置实施例五
在本发明数据缩减装置实施例一的基础上,可选的,确定模块601,具体用于:根据所述待存储数据块的内容信息及预先存储的内容类规则,确定是否需要对所述待存储数据块进行去重处理;
其中,所述内容类规则,包括:根据待存储数据块的第一预设偏移位置和第二预设偏移位置之间的内容与预设内容之间的匹配关系所确定的规则;
其中,所述预设内容包括不需要去重的待存储数据块所需要包括的内容;所述第一预设偏移位置及所述第二预设偏移位置用于指示所述预设内容在待存储数据块中的相对位置。
其中,所述内容包括:标签。
可选的,所述预设内容,还包括需要去重的待存储数据块所需要包括的内容。
本实施例的数据缩减装置,可以用于执行数据缩减的方法实施例五的技术方案,其实现原理和技术效果类似,此处不再赘述。
图7为本发明数据缩减装置实施例六的结构示意图,如图7所示,本实施例的数据缩减装置可以包括:处理器701和存储器702。该数据缩减装置还可以包括发射器703、接收器704。发射器703和接收器704可以和处理器701相连。其中,发射器703用于发送数据或信息,接收器704用于接收数据或信息,存储器702存储执行指令,当数据缩减装置运行时,处理器701与存储器702之间通信,处理器701调用存储器702中的执行指令,用于执行以下操作:
根据待存储数据的特征信息,确定是否需要对所述待存储数据中的待存储数据块进行去重处理;若需要,则对所述待存储数据块进行去重处理;若不需要,则对所述待存储数据块进行压缩处理。
可选的,所述根据待存储数据的特征信息,确定是否需要对所述待存储数据中的待存储数据块进行去重处理,包括:根据所述待存储数据的位置信息,和/或所述待存储数据块的内容信息,确定是否需要对所述待存储数据块进行去重处理。
可选的,所述根据所述待存储数据的位置信息,确定是否需要对所述待存储数据块进行去重处理,包括:根据所述待存储数据对应的存储地址与预设存储地址的相对位置关系,确定是否需要对所述存储数据块进行去重处理;
其中,所述预设存储地址包括第一预设存储地址和第二预设存储地址;所述第一预设存储地址与所述第二预设存储地址之间的数据为不需要去重的数据。
可选的,所述预设存储地址,还包括:第三预设存储地址和第四预设存储地址;所述第三预设存储地址与所述第四预设存储地址之间的数据为需要去重的数据。
可选的,所述不需要去重的数据为元数据。
可选的,所述根据所述待存储数据块的内容信息,确定是否需要对所述待存储数据块进行去重处理,包括:根据所述待存储数据块的第一预设偏移位置与第二预设偏移位置之间的内容与预设内容的匹配关系,确定是否需要对所述待存储数据块进行去重处理;
其中,所述预设内容包括不需要去重的待存储数据块所需要包括的内容;所述第一预设偏移位置及所述第二预设偏移位置用于指示所述预设内容在待存储数据块中的相对位置。
可选的,所述预设内容,还包括需要去重的待存储数据块所需要包括的内容。
可选的,所述内容包括:标签。
可选的,所述不需要去重的待存储数据块所需要包括的内容为FILE;若所述待存储数据块的大小为1K,则所述第一预设偏移位置为0,所述第二预设偏移位置为3。
本实施例的数据缩减装置,可以用于执行本发明任意实施例所提供的数据缩减的方法的技术方案,其实现原理和技术效果类似,此处不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (18)
1.一种数据缩减的方法,其特征在于,包括:
根据待存储数据的特征信息,确定是否需要对所述待存储数据中的待存储数据块进行去重处理;
若需要,则对所述待存储数据块进行去重处理;
若不需要,则对所述待存储数据块进行压缩处理。
2.根据权利要求1所述的方法,其特征在于,所述根据待存储数据的特征信息,确定是否需要对所述待存储数据中的待存储数据块进行去重处理,包括:
根据所述待存储数据的位置信息,和/或所述待存储数据块的内容信息,确定是否需要对所述待存储数据块进行去重处理。
3.根据权利要求2所述的方法,其特征在于,所述根据所述待存储数据的位置信息,确定是否需要对所述待存储数据块进行去重处理,包括:
根据所述待存储数据对应的存储地址与预设存储地址的相对位置关系,确定是否需要对所述存储数据块进行去重处理;
其中,所述预设存储地址包括第一预设存储地址和第二预设存储地址;所述第一预设存储地址与所述第二预设存储地址之间的数据为不需要去重的数据。
4.根据权利要求3所述的方法,其特征在于,所述预设存储地址,还包括:第三预设存储地址和第四预设存储地址;所述第三预设存储地址与所述第四预设存储地址之间的数据为需要去重的数据。
5.根据权利要求3或4所述的方法,其特征在于,所述不需要去重的数据为元数据。
6.根据权利要求2所述的方法,其特征在于,所述根据所述待存储数据块的内容信息,确定是否需要对所述待存储数据块进行去重处理,包括:
根据所述待存储数据块的第一预设偏移位置与第二预设偏移位置之间的内容与预设内容的匹配关系,确定是否需要对所述待存储数据块进行去重处理;
其中,所述预设内容包括不需要去重的待存储数据块所需要包括的内容;所述第一预设偏移位置及所述第二预设偏移位置用于指示所述预设内容在待存储数据块中的相对位置。
7.根据权利要求6所述的方法,其特征在于,所述预设内容,还包括需要去重的待存储数据块所需要包括的内容。
8.根据权利要求6或7所述的方法,其特征在于,所述内容包括:标签。
9.根据权利要求6~8任一项所述的方法,其特征在于,所述不需要去重的待存储数据块所需要包括的内容为FILE;若所述待存储数据块的大小为1K,则所述第一预设偏移位置为0,所述第二预设偏移位置为3。
10.一种数据缩减装置,所述装置为存储服务器,或者为包括控制单元的存储器,所述装置包括:
确定模块,用于根据待存储数据的特征信息,确定是否需要对所述待存储数据中的待存储数据块进行去重处理;
处理模块,用于当所述确定模块确定需要对所述待存储数据块进行去重处理时,对所述待存储数据块进行去重处理;否则,对所述待存储数据块进行压缩处理。
11.根据权利要求10所述的装置,其特征在于,所述确定模块,具体用于:
根据所述待存储数据的位置信息,和/或所述待存储数据块的内容信息,确定是否需要对所述待存储数据块进行去重处理。
12.根据权利要求11所述的装置,其特征在于,所述确定模块,具体用于:
根据所述待存储数据对应的存储地址与预设存储地址的相对位置关系,确定是否需要对所述存储数据块进行去重处理;
其中,所述预设存储地址包括第一预设存储地址和第二预设存储地址;所述第一预设存储地址与所述第二预设存储地址之间的数据为不需要去重的数据。
13.根据权利要求12所述的装置,其特征在于,所述预设存储地址,还包括:第三预设存储地址和第四预设存储地址;所述第三预设存储地址与所述第四预设存储地址之间的数据为需要去重的数据。
14.根据权利要求12或13所述的装置,其特征在于,所述不需要去重的数据为元数据。
15.根据权利要求11所述的装置,其特征在于,所述确定模块,具体用于:
根据所述待存储数据块的第一预设偏移位置与第二预设偏移位置之间的内容与预设内容的匹配关系,确定是否需要对所述待存储数据块进行去重处理;
其中,所述预设内容包括不需要去重的待存储数据块所需要包括的内容;所述第一预设偏移位置及所述第二预设偏移位置用于指示所述预设内容在待存储数据块中的相对位置。
16.根据权利要求15所述的装置,其特征在于,所述预设内容,还包括需要去重的待存储数据块所需要包括的内容。
17.根据权利要求15或16所述的装置,其特征在于,所述内容包括:标签。
18.根据权利要求15~17任一项所述的装置,其特征在于,所述不需要去重的待存储数据块所需要包括的内容为FILE;若所述待存储数据块的大小为1K,则所述第一预设偏移位置为0,所述第二预设偏移位置为3。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410767371.2A CN104484132B (zh) | 2014-12-12 | 2014-12-12 | 数据缩减的方法及装置 |
PCT/CN2015/096568 WO2016091138A1 (zh) | 2014-12-12 | 2015-12-07 | 数据缩减的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410767371.2A CN104484132B (zh) | 2014-12-12 | 2014-12-12 | 数据缩减的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104484132A true CN104484132A (zh) | 2015-04-01 |
CN104484132B CN104484132B (zh) | 2017-11-17 |
Family
ID=52758680
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410767371.2A Active CN104484132B (zh) | 2014-12-12 | 2014-12-12 | 数据缩减的方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN104484132B (zh) |
WO (1) | WO2016091138A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105302495A (zh) * | 2015-11-20 | 2016-02-03 | 华为技术有限公司 | 数据存储方法及装置 |
WO2016091138A1 (zh) * | 2014-12-12 | 2016-06-16 | 华为技术有限公司 | 数据缩减的方法及装置 |
CN107624179A (zh) * | 2015-06-26 | 2018-01-23 | 英特尔公司 | 高效固态驱动器数据压缩方案和布局 |
CN108984103A (zh) * | 2017-06-02 | 2018-12-11 | 伊姆西Ip控股有限责任公司 | 用于去重的方法和设备 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10901951B2 (en) | 2018-07-17 | 2021-01-26 | International Business Machines Corporation | Memory compaction for append-only formatted data in a distributed storage network |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020116402A1 (en) * | 2001-02-21 | 2002-08-22 | Luke James Steven | Information component based data storage and management |
CN101916171A (zh) * | 2010-07-16 | 2010-12-15 | 中国科学院计算技术研究所 | 一种并发层次式的重复数据消除方法和系统 |
US20110184908A1 (en) * | 2010-01-28 | 2011-07-28 | Alastair Slater | Selective data deduplication |
CN104063374A (zh) * | 2013-03-18 | 2014-09-24 | 阿里巴巴集团控股有限公司 | 一种对数据进行去重的方法和设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080243769A1 (en) * | 2007-03-30 | 2008-10-02 | Symantec Corporation | System and method for exporting data directly from deduplication storage to non-deduplication storage |
CN102591855A (zh) * | 2012-01-13 | 2012-07-18 | 广州从兴电子开发有限公司 | 一种数据标识方法及系统 |
CN104484132B (zh) * | 2014-12-12 | 2017-11-17 | 华为技术有限公司 | 数据缩减的方法及装置 |
-
2014
- 2014-12-12 CN CN201410767371.2A patent/CN104484132B/zh active Active
-
2015
- 2015-12-07 WO PCT/CN2015/096568 patent/WO2016091138A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020116402A1 (en) * | 2001-02-21 | 2002-08-22 | Luke James Steven | Information component based data storage and management |
US20110184908A1 (en) * | 2010-01-28 | 2011-07-28 | Alastair Slater | Selective data deduplication |
CN101916171A (zh) * | 2010-07-16 | 2010-12-15 | 中国科学院计算技术研究所 | 一种并发层次式的重复数据消除方法和系统 |
CN104063374A (zh) * | 2013-03-18 | 2014-09-24 | 阿里巴巴集团控股有限公司 | 一种对数据进行去重的方法和设备 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016091138A1 (zh) * | 2014-12-12 | 2016-06-16 | 华为技术有限公司 | 数据缩减的方法及装置 |
CN107624179A (zh) * | 2015-06-26 | 2018-01-23 | 英特尔公司 | 高效固态驱动器数据压缩方案和布局 |
CN105302495A (zh) * | 2015-11-20 | 2016-02-03 | 华为技术有限公司 | 数据存储方法及装置 |
CN105302495B (zh) * | 2015-11-20 | 2019-05-28 | 华为技术有限公司 | 数据存储方法及装置 |
CN108984103A (zh) * | 2017-06-02 | 2018-12-11 | 伊姆西Ip控股有限责任公司 | 用于去重的方法和设备 |
US11461276B2 (en) | 2017-06-02 | 2022-10-04 | EMC IP Holding Company LLC | Method and device for deduplication |
Also Published As
Publication number | Publication date |
---|---|
WO2016091138A1 (zh) | 2016-06-16 |
CN104484132B (zh) | 2017-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9471386B2 (en) | Allocating resources to tasks in a build process | |
EP3376393B1 (en) | Data storage method and apparatus | |
CN107229420B (zh) | 数据存储方法、读取方法、删除方法和数据操作系统 | |
CN103765373B (zh) | 数据存储方法、数据存储装置和存储设备 | |
CN104484132A (zh) | 数据缩减的方法及装置 | |
CN108268344B (zh) | 一种数据处理方法和装置 | |
CN112748863B (zh) | 用于处理数据的方法、电子设备和计算机程序产品 | |
CN104239518A (zh) | 重复数据删除方法和装置 | |
WO2015096454A1 (zh) | 一种数据处理方法及装置 | |
CN105260639A (zh) | 一种脸部识别系统的数据更新的方法及装置 | |
CN103353850A (zh) | 虚拟机热迁移内存处理方法、装置和系统 | |
CN104461641A (zh) | 一种数据烧写方法、系统、烧写设备以及目标设备 | |
CN111061690B (zh) | 一种基于rac的数据库日志文件读取方法和装置 | |
CN105243027A (zh) | 在存储设备中存储数据的方法和存储控制器 | |
US20220237158A1 (en) | Method, electronic device, and computer program product for data processing | |
CN105183399A (zh) | 一种基于弹性块存储的数据写、读方法及装置 | |
US8549223B1 (en) | Systems and methods for reclaiming storage space on striped volumes | |
CN104572492A (zh) | 一种烧录数据到fat32分区的方法和装置 | |
WO2017147794A1 (zh) | 差异数据备份的方法和设备 | |
CN104375905A (zh) | 一种基于数据块的增量备份的方法和系统 | |
CN112912743B (zh) | 算力的控制方法、装置、设备及存储介质 | |
CN105224418A (zh) | 一种数据备份方法和装置 | |
CN104778252A (zh) | 索引的存储方法和装置 | |
CN104407990A (zh) | 一种磁盘访问方法及装置 | |
US10248677B1 (en) | Scaling an SSD index on a deduplicated storage system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220207 Address after: 550025 Huawei cloud data center, jiaoxinggong Road, Qianzhong Avenue, Gui'an New District, Guiyang City, Guizhou Province Patentee after: Huawei Cloud Computing Technologies Co.,Ltd. Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd. |