CN101630290A - 重复数据处理方法和装置 - Google Patents

重复数据处理方法和装置 Download PDF

Info

Publication number
CN101630290A
CN101630290A CN200910163400A CN200910163400A CN101630290A CN 101630290 A CN101630290 A CN 101630290A CN 200910163400 A CN200910163400 A CN 200910163400A CN 200910163400 A CN200910163400 A CN 200910163400A CN 101630290 A CN101630290 A CN 101630290A
Authority
CN
China
Prior art keywords
data
physical block
described physical
mapping table
eigenwert
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200910163400A
Other languages
English (en)
Other versions
CN101630290B (zh
Inventor
梁尚冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Huawei Technology Co Ltd
Original Assignee
Huawei Symantec Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Symantec Technologies Co Ltd filed Critical Huawei Symantec Technologies Co Ltd
Priority to CN2009101634003A priority Critical patent/CN101630290B/zh
Publication of CN101630290A publication Critical patent/CN101630290A/zh
Application granted granted Critical
Publication of CN101630290B publication Critical patent/CN101630290B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种重复数据处理方法和装置。该方法包括:接收用于读取物理块中的数据的读请求,所述读请求包括与所述物理块对应的映射表的信息;根据所述映射表的信息将所述物理块中的数据写入内存中;将已写入内存中的所述物理块中的数据进行重复数据删除操作。通过在接收读请求时,由读请求触发执行重复数据删除线程,使重复数据删除线程改为被动方式,重复数据删除操作对数据的读写操作影响较小,并且无需增加额外的I/O开销;物理块中的数据直接写入内存中,无需通过CACHE处理,减小了重复数据删除操作对SSD主存储阵列读写性能的影响。

Description

重复数据处理方法和装置
技术领域
本发明涉及数据处理技术,特别涉及一种重复数据处理方法和装置。
背景技术
固态硬盘(Solid-state hard drive,以下简称:SSD)因其具有高性能已经被应用到主存储阵列中。但由于SSD存储介质价格高昂,因此在使用过程中需要充分利用SSD中的存储空间,而存储于SSD中的数据可能存在数据重复存储的现象,重复数据会占用SSD中的存储空间,因而需要通过重复数据删除技术删除SSD中的重复存储的数据。
现有技术中,用于重复数据删除的方法有多种,例如:方法一,同步方式,也叫带内方式,即当内存中的数据写入SSD中时,该数据首先驻留在内存中,然后调用重复数据删除线程对要写入的数据进行辨识,判断该数据是否已在SSD中存储。如果是,则写入一个指针代替实际要写入的数据;如果不是,则将内存中的数据经过高速缓冲存储器(CACHE)处理后写入SSD中。方法二,异步方式,也叫带外方式,即当有数据写入SSD中时,该数据首先经过CACHE处理后写入SSD中,然后再启动单独的线程执行重复数据删除操作,读取已存储在SSD中的该数据,并对该数据进行辨识,判断该数据是否重复存储。如果是,则用指针代替该数据,清空该数据占用的存储空间;如果不是,则保留该数据。
在实现本发明过程中,发明人发现现有技术中存在如下问题:方法一中,数据需在重复数据删除操作结束后才能写入SSD中,待写入的数据驻留在内存中,不能有效的利用带宽,因此重复数据删除操作对SSD主存储阵列读写性能的影响较大。方法二中,由于需要启动单独线程执行重复数据删除操作,所以增加了额外的输入/输出(Input/Output,以下简称:I/O)开销,导致系统带宽被占用,也使得重复数据删除操作对SSD主存储阵列读写性能的影响较大。
发明内容
本发明实施例提供了一种重复数据处理方法和装置,以减小重复数据删除操作对SSD主存储阵列读写性能的影响。
本发明实施例提供了一种重复数据处理方法,其中包括:
接收用于读取物理块中的数据的读请求,所述读请求包括与所述物理块对应的映射表的信息;
根据所述映射表的信息将所述物理块中的数据写入内存中以读取所述物理块中的数据;
将已写入内存中的所述物理块中的数据进行重复数据删除操作。
本发明实施例提供了一种重复数据处理装置,其中包括:
接收模块,用于接收用于读取物理块中的数据的读请求,所述读请求包括与所述物理块对应的映射表的信息;
写入模块,用于根据所述映射表的信息将所述物理块中的数据写入内存中以读取所述物理块中的数据;
处理模块,用于将已写入内存中的所述物理块中的数据进行重复数据删除操作。
由以上技术方案可知,本发明实施例提供的一种重复数据删除方法和装置,通过在接收读请求时,由读请求触发执行重复数据删除线程,使重复数据删除线程改为被动方式,重复数据删除操作对数据的读写操作影响较小,并且无需增加额外的I/O开销;物理块中的数据直接写入内存中,无需通过CACHE处理,减小了重复数据删除操作对SSD主存储阵列读写性能的影响。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明重复数据处理方法实施例一流程图;
图2为本发明重复数据处理方法实施例二与SSD硬盘中物理块对应的映射表的原理图;
图3为本发明重复数据处理方法实施例二流程图;
图4为本发明重复数据处理方法实施例二中读请求的流程图;
图5为本发明重复数据处理方法实施例二中重复数据删除线程的流程图;
图6为本发明重复数据处理装置实施例三的结构示意图;
图7为本发明重复数据处理装置实施例四的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
图1为本发明重复数据处理方法实施例一流程图。如图1所示,本发明实施例一提供了一种重复数据处理方法,该方法包括:
步骤100、接收用于读取物理块中的数据的读请求,读请求包括与物理块对应的映射表的信息;
步骤101、根据映射表的信息将物理块中的数据写入内存中以读取物理块中的数据;
步骤102、将已写入内存中的物理块中的数据进行重复数据删除操作。
具体而言,接收用于读取SSD硬盘中物理块中的数据的读请求后,根据映射表的信息将物理块中的数据写入内存中,其中,物理块中的数据不通过CAHCE处理,采用直接下盘的方式直接写入内存中。并且将已写入内存中的物理块中的数据进行重复数据删除操作,对读请求要读取的数据进行重复数据删除处理。也就是说,重复数据删除操作是在SSD主存储阵列接收到读请求后,才对读请求对应的数据进行重复数据删除操作,而当没有接收到读请求时,不进行重复数据删除线程。在进行重复数据删除操作时,重复数据删除线程不影响SSD硬盘进行其他数据的读写操作,并且重复数据删除线程是由读请求触发执行,无需增加额外的I/O对其进行处理。
本发明实施例一提供的重复数据处理方法,通过读请求触发执行重复数据删除线程,使重复数据删除线程改为被动方式,即当SSD主存储阵列的读请求到达时,才对该请求对应的数据进行重复数据删除操作;而物理块中的数据不通过CAHCE处理,采用直接下盘的方式直接写入内存中,将CACHE占用的内存用于重复数据删除操作。重复数据删除操作对数据的读写操作影响较小,并且无需增加额外的I/O开销,减小了重复数据删除操作对SSD主存储阵列读写性能的影响。
实施例二
本发明实施例二提供的一种重复数据处理方法是基于上述实施例一的基础,其区别在于:可选的,与物理块对应的映射表包括MAP值和标志位。
图2为本发明重复数据处理方法实施例二与SSD硬盘中物理块对应的映射表的原理图。如图2所示,每块SSD硬盘可以以32K为单位进行划分建立物理块,与物理块对应的映射表包括MAP值和标志位。其中,映射表的前三位是代表该物理块的状态的标志位,该标志位分别为:第一标志位为重复利用标志位,代表该物理块中的数据是否重复利用,第二标志位为插入索引表标志位,代表该物理块的MAP值和物理块中的数据的特征值是否插入索引表中,第三标志位为已写入内存标志位,代表该物理块中的数据是否已经写入内存中。映射表包括的MAP值是由硬盘ID和硬盘内物理块ID共同组成,每块物理块对应的映射表中的MAP值都是唯一的。其中,物理块中的数据通过散列算法处理后得到的特征值与物理块对应的MAP值绑定作为表项建立的索引表。
图3为本发明重复数据处理方法实施例二流程图。如图3所示,基于上述技术方案,本发明实施例二提供的重复数据处理方法可以包括:
步骤300、接收用于读取物理块中的数据的读请求,该读请求包括与物理块对应的映射表的信息。
步骤300后,需要根据映射表的信息将物理块中的数据写入内存中,具体可以包括:步骤301、步骤302和步骤303。
步骤301、计算物理块中的数据的特征值。
步骤302、根据映射表的标志位判断预置的索引表是否包括物理块中的数据的特征值和物理块对应的映射表的信息中的MAP值。
步骤303、若预置的索引表没有包括物理块中的数据的特征值和物理块对应的映射表的信息中的MAP值,将物理块中的数据写入内存中。
具体而言,映射表包含的标志位中的第二标志位代表该物理块的MAP值和物理块中的数据的特征值是否插入索引表中,根据映射表的第二标志位判断物理块的MAP值和物理块中的数据的特征值是否插入到索引表中。如果第二标志位的状态为该数据对应的物理块中的MAP值和特征值没有在索引表中,说明该数据是新写入SSD硬盘物理块中的数据,需要对该数据进行重复数据删除处理,则读请求在读取数据的过程中不通过CACHE处理,采用直接下盘的方式直接将该物理块中的数据直接写入内存中,从使而内存中读请求对应的数据可以被重复数据删除线程处理。
步骤303后,需要将已写入内存中的物理块中的数据进行重复数据删除操作,具体可以包括:步骤304和步骤305。
步骤304、将特征值与预置的索引表中的特征值进行匹配。
步骤305、若匹配成功,则初始化物理块对应的映射表的标志位,并删除物理块中的数据;否则将物理块中的数据的特征值和物理块对应的映射表的信息中的MAP值插入索引表中。
可选的,本实施例中,可以通过专用的中央处理单元(Central ProcessingUnit,以下简称:CPU)核对物理块中的数据进行重复数据删除操作。通过专用的CPU核执行重复数据删除线程,对物理块中的数据进行重复数据删除操作,使重复数据删除操作与SSD硬盘的读数据和写数据操作分离,SSD的读写操作与重复数据删除操作互不影响。
本发明实施例二提供的重复数据处理方法,在重复数据处理过程中,可以根据物理块对应的映射表,判断该物理块的状态,可以方便地在重复数据删除过程中对物理块中的数据进行处理,提高了重复数据删除操作过程中对物理块的处理效率,减小了重复数据删除操作对SSD主存储阵列读写性能的影响。本发明实施例二采用被动方式进行重复数据删除操作,即当SSD主存储阵列接收到读请求时,才触发重复数据删除线程对该请求对应的数据进行重复数据删除操作,减小了在异步方式中出现的由于重复数据删除线程额外增加的I/O操作而导致对主存储阵列读写性能的影响。同时,本发明实施例取消了通过CACHE进行数据读写操作,而是采用直接下盘的方式,将物理块中的数据不通过CACHE处理直接写入内存中,有利于降低同步方式中出现的数据通过CACHE读写而造成数据阻塞的几率,减小了重复数据删除操作对SSD主存储阵列读写性能的影响。重复数据删除线程在重复数据的处理过程中,通过将数据的特征值与索引表中的特征值比较来判断该数据是否是重复数据,提高了重复数据删除处理的效率;对重复数据占用的物理块中的映射表进行初始化并清空该物理块的空间,可以快速的清空恢复重复数据占用的物理块,使SSD主存储阵列的存储空间得到更加充分的利用,大大减轻了SSD主存储阵列因其昂贵的价格而产生来的高成本压力。而且,通过专用的CPU核执行重复数据删除线程,重复数据删除线程与SSD硬盘的读写操作由不同的CPU核处理,在重复数据删除处理过程中,不影响SSD硬盘的读写操作,减小了重复数据删除操作对SSD主存储阵列读写性能的影响。
以下结合附图4至附图5,对本发明实施例二重复数据处理过程中的读请求和重复数据删除线程的工作原理进行详细说明。
在实际应用中,在执行写请求命令时,SSD硬盘中的数据是将写请求对应的数据,不通过CACHE处理,采用直接下盘的方式直接写入SSD硬盘中。对于写入到SSD硬盘中的数据,当接收到读请求时,读请求对应的数据将不通过CACHE处理,采用直接下盘的方式直接写入内存中,并且读请求将会启动重复数据删除线程。图4为本发明重复数据处理方法实施例二中读请求的流程图,读请求启动重复数据删除线程的具体过程如图4所示,包括如下步骤:
步骤400、分析判断是否还有内存空间。若是,则执行步骤401,否则执行步骤406。
步骤401、通过读请求对应的物理块中映射表的第三标志位,判断该读请求对应的物理块中的数据是否写入内存中。若否则执行步骤402,若是则执行步骤406。
步骤402、判断该物理块的MAP值和物理块中的数据的特征值是否已经在索引表中。具体为,通过读请求对应的物理块映射表的第二标志位判断物理块中的数据对应的特征值和该物理块对应的MAP值是否对应插入索引表中,若否则执行步骤403,若是则执行步骤406。
通过映射表找到相应的物理块。具体为,根据读请求对应的映射表中的MAP值,查找到与该MAP值对应的物理块。
步骤403、将物理块中的数据直接写入内存中。具体为,该物理块中的数据不通过缓存处理采用直接下盘的方式直接写入内存中。
步骤404、修改映射表中的标志位。具体为,将映射表中的第三标志位设置为该物理块中的数据已经写入到内存状态。
步骤405、执行重复数据删除线程。
步骤406、请求直接下盘并返回。具体为,数据不通过缓存处理采用直接下盘的方式直接被其他程序调用处理。
当SSD硬盘接收到读请求后,会执行上述读请求的步骤流程,如果读请求对应的物理块中的数据是通过写请求新写入的数据,则会执行重复数据删除线程。图5为本发明重复数据处理方法实施例二中重复数据删除线程的流程图。如图5所示,重复数据删除线程的步骤为:
步骤500、通过散列算法计算得出物理块中的数据的特征值。具体为,通过散列算法计算得出写入内存中的数据的特征值。
步骤501、分析判断索引表中是否存在与该物理块中的数据的特征值相同的特征值。若是则执行步骤502;否则执行步骤505。
步骤502、初始化该物理块对应的映射表的三个标志位。具体为,由于该数据为重复数据,则将该数据所在物理块对应的映射表中的标志位初始化,即第一标志位设置为没有被重复利用状态、第二标志位设置为没有被插入索引状态以及第三标志位设置为没有被写入内存状态。
步骤503、清空该物理块的空间。具体为,将该物理块中存储的数据清空,即删除物理块中存储的重复数据。
步骤504、将清空后的物理块回收至空闲资源池中,执行步骤507。清空后的物理块用于写请求写入新的数据使用。
步骤505、将数据的特征值和MAP值对应插入到索引表中。
步骤506、置相应的标志位。具体为,将映射表中的第二标志位设置为插入索引状态。
步骤507、释放数据占用的内存空间。
本发明实施例二提供的数据处理方法,通过读请求启动执行重复数据删除线程,将缓存占用的内存用作重复数据删除操作,使重复数据删除线程改为被动的方式由读请求触发调用,即当SSD主存储阵列的读请求到达时,才对该请求对应的数据进行重复数据删除操作,最大限度的减少了重复数据删除线程带来的额外的I/O请求;在读写过程中,取消了数据通过CACHE处理的操作,使I/O读写不通过缓存采用直接下盘的方式,直接对数据进行读写操作,内存与SSD之间可以直接进行数据的读写操作,减少了重复数据删除操作对SSD主存储阵列读写性能的影响。在重复数据处理过程中,可以根据物理块对应的映射表,判断该物理块的状态,可以方便的在重复数据删除过程中对物理块中的数据进行处理;通过将数据的特征值与索引表中的特征值比较来判断该数据是否是重复数据,重复数据删除线程可以方便的通过数据的特征值对存储于物理块中的重复数据进行查找,提高了重复数据删除操作的效率。通过专用的CPU核执行重复数据删除线程,使重复数据删除线程与SSD硬盘的读写操作采用不同的CPU核处理,减少了重复数据删除线程对SSD主存储阵列读写性能的影响。通过将物理块映射表中的标志位初始化,并清空物理块的空间,可以快速的清空恢复重复数据占用的物理块,使SSD主存储阵列的存储空间得到更加充分的利用,大大减轻了SSD主存储阵列因其昂贵的价格而产生来的高成本压力。
实施例三
图6为本发明重复数据处理装置实施例三的结构示意图。如图6所示,本发明实施例三提供了一种重复数据处理装置,该装置包括:接收模块1、写入模块2和处理模块3。
接收模块1,用于接收用于读取物理块中的数据的读请求,读请求包括与物理块对应的映射表的信息;
写入模块2,用于根据映射表的信息将物理块中的数据写入内存中以读取物理块中的数据;
处理模块3,用于将已写入内存中的物理块中的数据进行重复数据删除操作。
本发明实施例三提供的重复数据处理装置,接收模块接收到包括有映射表的信息的读请求后,写入模块根据该映射表的信息将物理块中的数据直接写入内存中,然后,处理模块将对写入内存中的物理块中的数据进行重复数据删除操作。接收模块接收的读请求后,触发处理模块执行重复数据删除线程,使重复数据删除线程改为被动方式,即当SSD主存储阵列的读请求到达时,才对该请求对应的数据进行重复数据删除操作;通过写入模块根据映射表的信息直接将物理块中的数据写入内存中,无需通过CACHE处理,减少了重复数据删除操作对SSD主存储阵列读写性能的影响。接收模块、写入模块和处理模块的具体实现机理可参见图1对应实施例的记载,不再赘述。
实施例四
本发明实施例四提供的一种重复数据处理装置是基于上述实施例三的基础,其区别在于:可选的,与物理块对应的映射表包括MAP值和标志位。
图7为本发明重复数据处理装置实施例四的结构示意图。如图7所示,基于上述技术方案,更进一步的,本发明实施例四提供的重复数据处理装置写入模块2可以包括:
计算子模块21,用于计算物理块中的数据的特征值。
判断子模块22,用于根据映射表的标志位判断预置的索引表是否包括物理块中的数据的特征值和物理块对应的映射表的信息中的MAP值。具体而言,判断子模块22根据映射表标志位的第二标志位判断预置的索引表是否包括物理块中的数据的特征值和物理块对应的MAP值。
写入子模块23,用于当判断子模块22判断出预置的索引表没有包括物理块中的数据的特征值和物理块对应的映射表的信息中的MAP值时,将物理块中的数据写入内存中。
本发明实施例四提供的重复数据处理装置,在重复数据处理过程中,可以根据物理块对应的映射表,判断该物理块的状态,可以方便的在数据删除过程中对数据对应的物理块进行处理,并可以根据物理块中的映射表判断该物理块的状态,提高了数据删除操作过程中对物理块的处理效率,减少了重复数据删除操作对SSD主存储阵列读写性能的影响。通过判断子模块根据映射表的第二标志位判断该物理块的MAP值和物理块中的数据的特征值是否插入到索引表中,可以快速的判断所要处理数据是否是新写入的数据,从而提高了重复数据删除操作的效率,降低重复数据删除操作对SSD主存储阵列性能的影响。通过写入子模块将数据直接写入内存中,读取数据的过程不通过缓存处理,可以将缓存占用的内存用作处理重复数据删除操作,从而提高了重复数据删除操作的效率,保障SSD主存储阵列的性能。
更进一步的,本发明实施例四提供的重复数据处理装置中的处理模块3可以包括:
第一处理子模块31,用于将特征值与预置的索引表中的特征值进行匹配;
第二处理子模块32,用于当索引表中包括与物理块中的数据相匹配的特征值时,初始化物理块对应的映射表的标志位并删除物理块中的数据;
第三处理子模块33,用于当索引表中不包括与物理块中的数据相匹配的特征值时,将物理块中的数据的特征值和物理块对应的映射表的信息中的MAP值插入索引表中。
通过将物理块中的数据的特征值与索引表中已有数据的特征值进行对比,能够快速的判断该数据是否是重复数据,提高了重复数据删除操作的效率,保障SSD主存储阵列的性能。并且能够清空重复数据占用的物理块的空间,使SSD主存储阵列的存储空间得到更加充分的利用,大大减轻了SSD主存储阵列因其昂贵的价格而产生来的高成本压力。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1、一种重复数据处理方法,其特征在于,包括:
接收用于读取物理块中的数据的读请求,所述读请求包括与所述物理块对应的映射表的信息;
根据所述映射表的信息将所述物理块中的数据写入内存中以读取所述物理块中的数据;
将已写入内存中的所述物理块中的数据进行重复数据删除操作。
2、根据权利要求1所述的重复数据处理方法,其特征在于,所述与所述物理块对应的映射表的信息包括MAP值和标志位。
3、根据权利要求2所述的重复数据处理方法,其特征在于,所述根据所述映射表的信息将所述物理块中的数据写入内存中以读取所述物理块中的数据包括:
计算所述物理块中的数据的特征值;
根据所述映射表的信息中的标志位判断预置的索引表是否包括所述物理块中的数据的特征值和所述物理块对应的映射表的信息中的MAP值;
若否,则将所述物理块中的数据写入内存中以读取所述物理块中的数据。
4、根据权利要求3所述的重复数据处理方法,其特征在于,所述将已写入内存中的所述物理块中的数据进行重复数据删除操作包括:
将所述特征值与所述预置的索引表中的特征值进行匹配;
若匹配成功,则初始化与所述物理块对应的映射表的信息中的标志位,并删除所述物理块中的数据;否则将所述物理块中的数据的特征值和所述物理块对应的映射表的信息中的MAP值插入所述预置的索引表中。
5、根据权利要求1所述的重复数据处理方法,其特征在于,所述将已写入内存中的所述物理块中的数据进行重复数据删除操作包括:通过专用的CPU核对所述物理块中的数据进行重复数据删除操作。
6、一种重复数据处理装置,其特征在于,包括:
接收模块,用于接收用于读取物理块中的数据的读请求,所述读请求包括与所述物理块对应的映射表的信息;
写入模块,用于根据所述映射表的信息将所述物理块中的数据写入内存中以读取所述物理块中的数据;
处理模块,用于将已写入内存中的所述物理块中的数据进行重复数据删除操作。
7、根据权利要求6所述的装置,其特征在于,所述与所述物理块对应的映射表的信息包括MAP值和标志位。
8、根据权利要求7所述的装置,其特征在于,所述写入模块包括:
计算子模块,用于计算所述物理块中的数据的特征值;
判断子模块,用于根据所述映射表的标志位判断预置的索引表是否包括所述物理块中的数据的特征值和所述物理块对应的映射表的信息中的MAP值;
写入子模块,用于当所述判断子模块判断出所述预置的索引表没有包括所述物理块中的数据的特征值和所述物理块对应的MAP值时,将所述物理块中的数据写入内存中。
9、根据权利要求8所述的装置,其特征在于,所述处理模块包括:
第一处理子模块,用于将所述特征值与预置的索引表中的特征值进行匹配;
第二处理子模块,用于当所述索引表中包括与所述物理块中的数据相匹配的特征值时,初始化与所述物理块对应的映射表的标志位并删除所述物理块中的数据;
第三处理子模块,用于当所述索引表中不包括与所述物理块中的数据相匹配的特征值时,将所述物理块中的数据的特征值和所述物理块对应的映射表的信息中的MAP值插入所述预置的索引表中。
CN2009101634003A 2009-08-17 2009-08-17 重复数据处理方法和装置 Active CN101630290B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009101634003A CN101630290B (zh) 2009-08-17 2009-08-17 重复数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101634003A CN101630290B (zh) 2009-08-17 2009-08-17 重复数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN101630290A true CN101630290A (zh) 2010-01-20
CN101630290B CN101630290B (zh) 2011-06-08

Family

ID=41575405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101634003A Active CN101630290B (zh) 2009-08-17 2009-08-17 重复数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN101630290B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916171A (zh) * 2010-07-16 2010-12-15 中国科学院计算技术研究所 一种并发层次式的重复数据消除方法和系统
CN102207939A (zh) * 2010-03-31 2011-10-05 联想(北京)有限公司 一种多硬件系统数据处理设备及删除重复数据的方法
CN102467557A (zh) * 2010-11-17 2012-05-23 英业达股份有限公司 重复数据删除的处理方法
CN103049388A (zh) * 2012-12-06 2013-04-17 深圳市江波龙电子有限公司 一种分页存储器件的压缩管理方法及装置
CN103473266A (zh) * 2013-08-09 2013-12-25 记忆科技(深圳)有限公司 固态硬盘及其删除重复数据的方法
CN103814361A (zh) * 2011-09-19 2014-05-21 国际商业机器公司 针对小块的可伸缩重复删除系统
TWI448121B (zh) * 2011-08-10 2014-08-01 Inventec Corp 點對點傳輸的重複數據刪除處理方法及其系統
CN104378186A (zh) * 2014-10-31 2015-02-25 南京南瑞继保电气有限公司 一种网络冗余数据处理的方法、装置和系统
CN105900395A (zh) * 2014-01-16 2016-08-24 富士通株式会社 通信装置、通信方法、以及通信程序
CN106445416A (zh) * 2016-09-22 2017-02-22 飞天诚信科技股份有限公司 一种数据记录的存储、查询和检索的方法及装置
CN106569745A (zh) * 2016-10-25 2017-04-19 暨南大学 一种内存过载下面向重复数据删除的内存优化系统
CN106681837A (zh) * 2016-12-29 2017-05-17 北京奇虎科技有限公司 基于数据表的数据淘汰方法及装置
CN107122130A (zh) * 2017-04-13 2017-09-01 杭州宏杉科技股份有限公司 一种数据重删方法及装置
CN107957848A (zh) * 2016-10-14 2018-04-24 上海交通大学 重删处理方法及存储设备
CN109407966A (zh) * 2017-08-18 2019-03-01 爱思开海力士有限公司 数据存储装置及其操作方法
TWI662470B (zh) * 2017-03-31 2019-06-11 日商阿自倍爾股份有限公司 時間序列資料記錄方法及裝置
CN110175000A (zh) * 2019-05-24 2019-08-27 深圳忆联信息系统有限公司 基于固态硬盘的读写性能提升方法、装置和计算机设备
WO2021046935A1 (zh) * 2019-09-12 2021-03-18 苏州浪潮智能科技有限公司 管理数据同步方法、装置、存储设备及可读存储介质
WO2023070462A1 (zh) * 2021-10-28 2023-05-04 华为技术有限公司 一种文件去重方法、装置和设备

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102207939A (zh) * 2010-03-31 2011-10-05 联想(北京)有限公司 一种多硬件系统数据处理设备及删除重复数据的方法
CN102207939B (zh) * 2010-03-31 2013-09-04 联想(北京)有限公司 一种多硬件系统数据处理设备及删除重复数据的方法
CN101916171A (zh) * 2010-07-16 2010-12-15 中国科学院计算技术研究所 一种并发层次式的重复数据消除方法和系统
CN102467557B (zh) * 2010-11-17 2013-10-02 英业达股份有限公司 重复数据删除的处理方法
CN102467557A (zh) * 2010-11-17 2012-05-23 英业达股份有限公司 重复数据删除的处理方法
TWI448121B (zh) * 2011-08-10 2014-08-01 Inventec Corp 點對點傳輸的重複數據刪除處理方法及其系統
CN103814361A (zh) * 2011-09-19 2014-05-21 国际商业机器公司 针对小块的可伸缩重复删除系统
US9747055B2 (en) 2011-09-19 2017-08-29 International Business Machines Corporation Scalable deduplication system with small blocks
CN103814361B (zh) * 2011-09-19 2016-06-29 国际商业机器公司 针对小块的可伸缩重复数据的删除方法及系统
CN103049388A (zh) * 2012-12-06 2013-04-17 深圳市江波龙电子有限公司 一种分页存储器件的压缩管理方法及装置
CN103049388B (zh) * 2012-12-06 2015-12-23 深圳市江波龙电子有限公司 一种分页存储器件的压缩管理方法及装置
CN103473266A (zh) * 2013-08-09 2013-12-25 记忆科技(深圳)有限公司 固态硬盘及其删除重复数据的方法
CN105900395A (zh) * 2014-01-16 2016-08-24 富士通株式会社 通信装置、通信方法、以及通信程序
CN104378186A (zh) * 2014-10-31 2015-02-25 南京南瑞继保电气有限公司 一种网络冗余数据处理的方法、装置和系统
CN106445416A (zh) * 2016-09-22 2017-02-22 飞天诚信科技股份有限公司 一种数据记录的存储、查询和检索的方法及装置
CN106445416B (zh) * 2016-09-22 2019-08-09 飞天诚信科技股份有限公司 一种数据记录的存储、查询和检索的方法及装置
US10712945B2 (en) 2016-10-14 2020-07-14 Tencent Technology (Shenzhen) Company Limited Deduplication processing method, and storage device
CN107957848B (zh) * 2016-10-14 2020-01-10 上海交通大学 重删处理方法及存储设备
CN107957848A (zh) * 2016-10-14 2018-04-24 上海交通大学 重删处理方法及存储设备
CN106569745A (zh) * 2016-10-25 2017-04-19 暨南大学 一种内存过载下面向重复数据删除的内存优化系统
CN106569745B (zh) * 2016-10-25 2019-07-19 暨南大学 一种内存过载下面向重复数据删除的内存优化系统
CN106681837A (zh) * 2016-12-29 2017-05-17 北京奇虎科技有限公司 基于数据表的数据淘汰方法及装置
CN106681837B (zh) * 2016-12-29 2020-10-16 北京奇虎科技有限公司 基于数据表的数据淘汰方法及装置
TWI662470B (zh) * 2017-03-31 2019-06-11 日商阿自倍爾股份有限公司 時間序列資料記錄方法及裝置
CN107122130A (zh) * 2017-04-13 2017-09-01 杭州宏杉科技股份有限公司 一种数据重删方法及装置
CN107122130B (zh) * 2017-04-13 2020-04-21 杭州宏杉科技股份有限公司 一种数据重删方法及装置
CN109407966A (zh) * 2017-08-18 2019-03-01 爱思开海力士有限公司 数据存储装置及其操作方法
CN110175000A (zh) * 2019-05-24 2019-08-27 深圳忆联信息系统有限公司 基于固态硬盘的读写性能提升方法、装置和计算机设备
WO2021046935A1 (zh) * 2019-09-12 2021-03-18 苏州浪潮智能科技有限公司 管理数据同步方法、装置、存储设备及可读存储介质
WO2023070462A1 (zh) * 2021-10-28 2023-05-04 华为技术有限公司 一种文件去重方法、装置和设备

Also Published As

Publication number Publication date
CN101630290B (zh) 2011-06-08

Similar Documents

Publication Publication Date Title
CN101630290B (zh) 重复数据处理方法和装置
US10719254B2 (en) Merging data from single-level cell block to multiple-level cell block based on sudden power off event and valid page count in single-level cell block
CN102063377B (zh) 存储介质的数据存取管理方法及存储控制器
US8595451B2 (en) Managing a storage cache utilizing externally assigned cache priority tags
US20080195833A1 (en) Systems, methods and computer program products for operating a data processing system in which a file system's unit of memory allocation is coordinated with a storage system's read/write operation unit
CN104238962B (zh) 向缓存中写入数据的方法及装置
CN105893275A (zh) 缓存及读取即将写入储存单元的数据的方法以及使用该方法的装置
EP3196767B1 (en) Method for writing data into flash memory device, flash memory device and storage system
US11204864B2 (en) Data storage devices and data processing methods for improving the accessing performance of the data storage devices
US20200293441A1 (en) Data storage devices and data processing methods
CN103955433A (zh) 盖瓦磁记录硬盘、盖瓦磁记录硬盘写数据的方法及装置
CN103399823A (zh) 业务数据的存储方法、设备和系统
CN103034592A (zh) 数据处理方法和装置
CN101944066A (zh) 固态硬盘的接口处理方法、固态硬盘以及存储系统
US20170160940A1 (en) Data processing method and apparatus of solid state disk
CN110427347A (zh) 重复数据删除的方法、装置、存储节点及存储介质
CN103389942A (zh) 控制装置、存储装置及存储控制方法
US9524236B1 (en) Systems and methods for performing memory management based on data access properties
CN102609509A (zh) 哈希数据处理方法和装置
CN112596949A (zh) 一种高效率的ssd删除数据恢复方法及系统
CN112162934A (zh) 存储块异常磨损处理方法、装置、电子设备及存储介质
US20130326120A1 (en) Data storage device and operating method for flash memory
CN102737171B (zh) 一种病毒文件存储的方法、装置及存储设备
CN105830067A (zh) 一种文件信息处理方法、装置及文件处理设备、系统
CN112099731B (zh) 数据储存装置与数据处理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee

Owner name: HUAWEI DIGITAL TECHNOLOGY (CHENGDU) CO., LTD.

Free format text: FORMER NAME: CHENGDU HUAWEI SYMANTEC TECHNOLOGIES CO., LTD.

CP01 Change in the name or title of a patent holder

Address after: 611731 Chengdu high tech Zone, Sichuan, West Park, Qingshui River

Patentee after: HUAWEI DIGITAL TECHNOLOGIES (CHENG DU) Co.,Ltd.

Address before: 611731 Chengdu high tech Zone, Sichuan, West Park, Qingshui River

Patentee before: CHENGDU HUAWEI SYMANTEC TECHNOLOGIES Co.,Ltd.

TR01 Transfer of patent right

Effective date of registration: 20220908

Address after: No. 1899 Xiyuan Avenue, high tech Zone (West District), Chengdu, Sichuan 610041

Patentee after: Chengdu Huawei Technologies Co.,Ltd.

Address before: 611731 Qingshui River District, Chengdu hi tech Zone, Sichuan, China

Patentee before: HUAWEI DIGITAL TECHNOLOGIES (CHENG DU) Co.,Ltd.

TR01 Transfer of patent right