CN107193503A - 一种数据重删方法及存储设备 - Google Patents
一种数据重删方法及存储设备 Download PDFInfo
- Publication number
- CN107193503A CN107193503A CN201710392991.6A CN201710392991A CN107193503A CN 107193503 A CN107193503 A CN 107193503A CN 201710392991 A CN201710392991 A CN 201710392991A CN 107193503 A CN107193503 A CN 107193503A
- Authority
- CN
- China
- Prior art keywords
- data
- written
- characteristic value
- copy
- response message
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0646—Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
- G06F3/0652—Erasing, e.g. deleting, data cleaning, moving of data to a wastebasket
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/061—Improving I/O performance
- G06F3/0611—Improving I/O performance in relation to response time
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/067—Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Computer And Data Communications (AREA)
Abstract
本申请提供一种数据重删方法及存储设备,该方法应用分布式存储系统中的存储设备,该方法包括:响应写IO请求中的待写入数据,且计算所述待写入数据的特征值;当根据特征值分布策略将待写入数据的特征值发送至其他存储设备时,接收其他存储设备基于待写入数据的特征值进行查找返回的响应消息;根据响应消息对待写入数据进行重删处理。该方法可以降低分布式存储系统的网络负担,也降低了读IO需要通过网络进行数据传输的概率,由于降低了数据网络传输的负担,减小了读写IO的延时,提升了IO处理速度和吞吐量。
Description
技术领域
本申请涉及存储领域,尤其涉及一种数据重删技术。
背景技术
重删(全称为重复数据删除)技术,是一种自动搜索重复数据,并将相同数据保留唯一副本的存储技术。通过重删处理,可消除存储系统的冗余数据,降低对存储容量的需求。
实现重删技术的方法有很多种,但目前比较流行在线重删技术是基于Hash(译为散列或哈希)算法实现重删,该种重删方法主要包括:将写入的数据划分成定长或者不定长的数据块,计算每个数据块的散列值(也可称为指纹),通过散列值匹配,保留新增数据,删除重复数据。
为了提供数据的处理速度,可采用分布式存储系统,参照图1所示,分布式存储系统有3个存储控制器,分别为存储控制器A、存储控制器B和存储控制器C,当然存储控制器的具体数量视情况而定。存储控制器之间可通过网络连接,存储控制器间可以通过网络传递数据,该网络可以是以太网络,也可以是PCIE网络等等。此处的存储控制器还可以包括实际的物理存储介质,例如,物理磁盘或者硬盘等,存储介质中具有实际存储数据的存储空间,存储空间可以划分成多个存储区域,每个区域具有物理地址。存储控制器也可以指不包括存储介质的设备,其作用是对物理介质进行控制和管理。
基于分布式存储系统的重删方法,每个存储控制器包括LUN(Logical UnitNumber,逻辑单元号),LUN是存储系统中,为用户提供的数据访问的存储单元,LUN包括多个逻辑地址块,每个逻辑地址块具有编号,该编号可称为逻辑地址,LUN中存储有逻辑地址映射表,每个存储控制器还可以设置指纹映射表。
如图2所示,逻辑地址映射表包括逻辑地址到实际在存储空间中保存数据的物理地址间的映射关系,其中逻辑地址可称为LBA(Logical Block Address,逻辑区块地址),物理地址可称为PBA(Physics Block Address,物理区块地址),例如,LUN中的逻辑地址LBA为1、2、3、4和5,分别对应的保存数据的存储空间的物理地址PBA为PBA-1、PBA-2、PBA-2、PBA-3和PBA-4,其中逻辑地址2和4对应的物理地址相同,都是PBA-2。
如图2所示,指纹映射表包括已完成重删处理的已写入数据的指纹与物理地址PBA的映射关系,指纹指可采用Hash算法得到,也可以称为Hash到PBA的映射关系。指纹映射表的作用是,当对写IO的数据进行重删处理时,通过到指纹映射表中检索是否存在有相同指纹,来初步判断是否存在重复的数据。
如图2所示,已写入四个数据块的指纹Hash-A、Hash-B、Hash-C和Hash-D分别对应的物理地址PBA为PBA-1、PBA-2、PBA-3和PBA-4。
每个存储控制器中还可以包括重删副本库,其作用是对存储控制器中的存储空间进行管理,为进行重删处理的数据分配存储空间和对存储空间进行回收等,图2中所示的重删副本库所在的方框包含重删副本库和对应的存储空间。
如图1所示,该分布式存储系统中,逻辑地址映射表、指纹映射表和重删副本库被划分成几个分段,每个分段保存在不同的存储控制器上,即,逻辑地址映射表a、指纹映射表a和重删副本库a保存在存储控制器A中,逻辑地址映射表b、指纹映射表b和重删副本库b保存在存储控制器B中,逻辑地址映射表c、指纹映射表c和重删副本库c保存在存储控制器C中,这样可以充分发挥每个存储控制器的计算能力和存储能力。
目前的基于分布式存储系统的重删技术中,重删副本库根据指纹映射表分布保存在对应的存储控制器中,一旦存储控制器的LUN接收到的写IO请求中的数据的指纹不在该存储控制器的指纹映射表中,就需要将该数据传输到对应指纹所在存储控制器,进行重删处理,由于数据需要在存储控制器之间进行传输,这样给网络传输带来负担,在重删处理时,读写IO吞吐量受网络限制,因此也会导致读写IO的延时增加,当IO并发压力增大时,IO堆积可能形成网络拥堵,延时不可预期。
发明内容
有鉴于此,本申请提供一种数据重删方法及装置,用以降低重删处理中需要网络传输的数据量,降低读写IO延时,提升IO处理速度和吞吐量。
具体地,本申请是通过如下技术方案实现的:
根据本申请的第一方面,提供一种数据重删方法,所述方法应用于存储设备,该方法包括:
响应写IO请求中的待写入数据,且计算所述待写入数据的特征值;
当根据特征值分布策略将所述待写入数据的特征值发送至其他存储设备时,接收其他存储设备基于所述待写入数据的特征值进行查找返回的响应消息,所述其他存储设备为响应写IO请求的存储设备以外的存储设备;
根据所述响应消息对所述待写入数据进行重删处理。
可选的,所述响应消息为携带其他存储设备中不存在重删副本的响应消息;
所述根据所述响应消息对所述待写入数据进行重删处理,具体包括:
根据所述响应消息为所述待写入数据分配重删副本存储空间并保存所述待写入数据;
建立写IO请求中的逻辑地址与所述重删副本存储空间的物理地址之间的映射关系。
可选的,在根据所述响应消息为所述待写入数据分配重删副本存储空间并保存所出待写入数据之后,还包括:
异步生成特征值添加消息,以使其他存储设备建立所述待写入数据的特征值与所述重删副本存储空间的物理地址之间的映射关系。
可选的,所述响应消息为携带重删副本的反冲突特征值和重删副本的物理地址的响应消息;
所述根据所述响应消息完成对所述待写入数据的重删处理,具体包括:
接收到所述响应消息后计算所述待写入数据的反冲突特征值;
将所述待写入数据的反冲突特征值与所述重删副本的反冲突特征值进行比较;
根据所述比较结果对所述待写入数据进行重删处理。
可选的,所述将所述待写入数据的反冲突特征值与所述重删副本的反冲突特征值进行比较,具体包括:
比较所述待写入数据的反冲突特征值与所述重删副本的反冲突特征值是否一致;
所述根据所述比较结果完成对所述待写入数据的重删处理,具体包括:
当一致时,建立写IO请求中的逻辑地址与所述重删副本的物理地址之间的映射关系。
可选的,所述将所述待写入数据的反冲突特征值与所述重删副本的反冲突特征值进行比较,具体包括:
比较所述待写入数据的反冲突特征值与所述重删副本的反冲突特征值是否一致;
所述根据所述比较结果完成对所述待写入数据的重删处理,具体包括:
当不一致时,为所述待写入数据分配冲突副本存储空间并保存所述待写入数据;
建立写IO请求中的逻辑地址与所述冲突副本存储空间的物理地址之间的映射关系。
可选的,所述响应消息为携带重删副本的响应消息;
所述根据所述响应消息对所述待写入数据进行重删处理,具体包括:
将所述响应消息中的重删副本与所述待写入数据进行比较;
根据所述比较结果对所述待写入数据进行重删处理。
可选的,所述将所述响应消息中的重删副本与所述待写入数据进行比较,具体包括:
比较所述待写入数据与所述重删副本是否一致;
所述根据所述比较结果对所述待写入数据进行重删处理,具体包括:
当一致时,建立写IO请求中的逻辑地址与所述重删副本的物理地址之间的映射关系。
所述将所述响应消息中的重删副本与所述待写入数据进行比较,具体包括:
比较所述待写入数据与所述重删副本是否一致;
所述根据所述比较结果对所述待写入数据进行重删处理,具体包括:
当不一致时,为所述待写入数据建立冲突副本存储空间并保存所出待写入数据;
建立写IO请求中的逻辑地址与所述冲突副本存储空间的物理地址之间的映射关系。
根据本申请的第二方面,提供一种数据重删方法,所述方法应用于存储设备,该方法包括:
接收待写入数据的特征值;
对所述待写入数据的特征值进行查找以生成响应消息,并返回其他存储设备,所述其他存储设备为接收所述待写入数据的特征值的存储设备以外的存储设备。
可选的,所述对所述待写入数据的特征值进行查找以生成响应消息,具体包括:
在特征值库中查找是否存在所述待写入数据的特征值;
如果不存在所述待写入数据的特征值,生成不存在重删副本的响应消息。
可选的,所述对所述待写入数据的特征值进行查找以生成响应消息,具体包括:
在特征值库中查找是否存在所述待写入数据的特征值;
如果在所述特征值库中查找到与所述待写入数据的特征值相同的特征值,读取所述特征值对应的重删副本,并生成携带所述重删副本的响应消息。
可选的,所述对所述待写入数据的特征值进行查找以生成响应消息,具体包括:
在特征值库中查找是否存在所述待写入数据的特征值;
如果在所述特征值库中查找到与所述待写入数据的特征值相同的特征值,读取所述特征值对应的重删副本,并获取所述重删副本的反冲突特征值和所述重删副本的物理地址;
生成携带所述反冲突特征值和所述重删副本的物理地址的响应消息。
可选的,所述获取所述重删副本的反冲突特征值包括:
根据与预设的计算所述重删副本的特征值不同的算法计算所述重删副本的反冲突特征值。
根据本申请的第三方面,提供一种存储设备,所述存储设备包括存储器和处理器,其特征在于,所述存储器中存储有多条指令,所述指令适于由处理器加载并执行上述所述的方法。
根据上述技术方案,本发明提供的数据重删方法,只需要将待写入数据的特征值发送给其他存储设备,其他存储设备只需要返回基于特征值进行查找的响应消息,本地存储设备根据响应消息对待写入数据进行重删处理,这样,不需要将待写入数据进行的传输,可以降低分布式存储系统的网络负担,并且,由于本地存储设备对待写入数据进行处理,在读IO请求时,只需要在本地存储设备中进行读取,不再需要通过网络将其他存储设备中的读取的数据进行传输,因此,也降低了读IO需要通过网络进行数据传输的概率,由于降低了数据网络传输的负担,减小读写IO的延时,提升了IO处理速度和吞吐量。
附图说明
图1是现有技术提供分布式存储系统的结构示意图;
图2是现有技术提供重删技术中的重删示意图;
图3是相关技术提供的数据重删方法的流程图;
图4是本申请提供的一种实施方式中的数据重删方法的流程图;
图5是本申请提供的另一种实施方式中的数据重删方法的流程图;
图6是本申请提供的又一种实施方式的数据重删方法的流程图;
图7是本申请提供的又一种实施方式的数据重删方法的流程图;
图8是本申请提供分布式存储系统的结构示意图;
图9是本申请一种实施方式提供的存储设备的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
基于图1所示的分布式存储系统,相关技术中提供的一种数据重删方法,如图3所示,包括以下步骤:
步骤1、LUN接收到写IO请求;
步骤2、指纹计算;
存储控制器的LUN接收写IO请求中的待写入数据,然后通过根据Hash算法计算待写入数据(以下称为IO数据)的指纹。
步骤3、指纹和IO数据发送;
根据指纹分布规则将指纹及其写请求中的携带的IO数据发送至存储控制器,也可将指纹及IO数据压缩打包后发送,可能将其发送给任一存储控制器,可能发送给本地存储控制器,也可能发给其他存储控制器,这里的本地存储控制器指接收写IO请求的存储控制器,其他存储控制器指除了本地存储控制器以外的任一存储控制器,此处称为远程控制器,各存储控制器之间通过网络连接。
如果指纹发送给本地存储控制器,则本地存储控制器接下来执行以下步骤4-步骤8:
步骤4、在指纹映射表中查找指纹是否存在,如果指纹不存在,则执行以下步骤401和步骤402,然后再执行以下步骤8,如果指纹已经存在则执行以下步骤5;
步骤401,分配重删副本存储空间并保存IO数据;
步骤402,添加IO数据的指纹映射关系至指纹映射表;
可在存储控制器中的指纹映射表中查找是否存在与IO数据的指纹相同的指纹,如果没有查找到相同的指纹,说明指纹不存在,也就是本地存储存储器中没有IO数据的重删副本,此时,重删副本库可为IO数据分配存储空间(可称为重删副本存储空间),在该存储空间中将IO数据进行存储,并建立IO数据的指纹与为IO数据分配的存储空间所在的物理地址的映射关系,进而将其添加到指纹映射表中。
步骤5、读取指纹对应的副本数据;
步骤6、比较副本数据和IO数据的内容是否一致,如果副本数据和IO数据的内容不一致,则执行步骤7,如果副本数据和IO数据的内容一致则执行步骤8;
步骤7、分配冲突副本存储空间并保存IO数据;
如果在指纹映射表中查找到相同的指纹,说明IO数据的指纹已经存在,但是可能存在冲突指纹,所以还要进一步的进行内容比较,将指纹对应的副本数据与IO数据进行内容比较,如果内容不一致,说明出现的指纹冲突,此时还需要为IO数据分配存储空间并保存,存储控制器可包括冲突副本库,冲突副本库用于为进行重删处理时的存在冲突指纹的数据分配存储空间和对该存储空间进行管理等,可在存储控制器中单独划出一定容量的存储空间作为冲突副本存储空间,通过冲突副本库为存储冲突指纹的IO数据分配冲突副本存储空间并保存IO数据。
如果副本数据和IO数据的内容一致,说明不存在指纹冲突,IO数据已经存在副本数据,不需要进行保存。
步骤8、LUN更新逻辑地址映射表。
本步骤8基于上述的步骤1-7,为了后续LUN进行数据的读取,LUN此时需要更新逻辑地址映射表,在映射表中添加逻辑地址与物理之间的映射关系,逻辑地址可携带在写IO请求中,该逻辑地址是接收写IO请求的LUN的逻辑地址块的编号,如果为IO数据分配了存储空间(参见步骤401和步骤7),该物理地址为分配的存储空间的物理地址,如果没有为IO数据分配存储空间,该物理地址为副本数据对应的物理地址(即IO数据和副本数据内容一致的情况)。
接收到IO数据和指纹的其他存储控制器执行以下步骤51至步骤91:
步骤51、接收IO数据和指纹;
步骤52、在指纹映射表中查找指纹,如果指纹不存在,则执行步骤521至步骤522,并执行步骤91,然后本地存储控制器再执行步骤92和步骤8,如果指纹已经存在则远程存储控制器执行步骤61;
步骤521、分配重删副本存储空间并保存IO数据;
步骤522,将指纹添加到指纹映射表;
步骤61、读取指纹对应的副本数据;
步骤71、比较副本数据和IO数据内容是否一致,如果副本数据和IO数据的内容不一致,则执行步骤81,如果副本数据和IO数据的内容一致则执行步骤91;
步骤81、发送响应,返回数据冲突结果;
步骤91、发送响应,携带副本数据的物理地址;
本地存储控制器收到远程存储控制器步骤81发送的响应后,进行数据冲突处理,接着执行步骤7,在接收到远程存储控制器步骤91发送的响应后,执行步骤92,收到响应,解析副本数据的物理地址,然后接着执行步骤8;
最后IO返回。
远程控制器执行与本地控制器执行的步骤相同的地方就不再进行阐述,如果将指纹发送给其他控制器,本地控制器还需要根据远程控制器发送的响应执行对应的步骤。
上述实施例的数据重删方法,存在以下问题:
第一、重删副本库是基于指纹映射表分布进行保存,副本数据保存在指纹映射表所在的存储控制器中,当进行指纹发送时,根据指纹分布规则需要将指纹发送至其他的远程存储控制器时,必须将IO数据和指纹一并发送以传输给远程存储控制器,以进行重删处理,传输IO数据会网络带来较为沉重的传输负担。
第二、对于LUN中的每个逻辑地址,一般从哪个存储控制器接收写IO请求,将来的读IO请求很有可能也来自这个存储控制器。如果写IO请求的数据因为指纹映射表的分段被保存在其他存储控制器中,那么读IO请求时,必须通过网络将其他存储控制器中读取的数据传输过来,因此,读IO需要通过网络进行数据传输的概率较高。
第三、由于数据网络传输,会导致读写IO的延时增加,当读写IO请求并发压力增大时,读写IO请求堆积可能形成网络拥堵,延时不可预期。
第四、在重删场景下,读写IO请求并发的吞吐量也受到网络带宽限制。
基于上述数据重删方法存在的问题,本发明实施例提供一种方法,如图4所示,该方法应用分布式存储系统中的存储设备,如图4所示,该数据重删方法包括以下步骤:
步骤10、响应写IO请求中的待写入数据,且计算待写入数据的特征值。
存储设备收到写IO请求时,响应请求中携带待写入数据,可采用Hash算法或其他算法计算待写入数据的特征值,该特征值是经过算法计算生成的,在重删技术中该特征值是用于标识数据的唯一标识。
步骤20、当根据特征值分布策略将待写入数据的特征值发送至其他存储设备时,接收其他存储设备基于待写入数据的特征值进行查找返回的响应消息,其他存储设备为响应写IO请求的存储设备以外的存储设备。
在分布式存储系统中,存在多个存储设备,该存储设备可以为上述具有实际的物理存储介质的存储控制器,本实施例中将响应写请求的存储设备称为本地存储设备,本地存储设备以外的设备称为其他存储设备,由于各存储设备之间通过网络相连,其他存储设备相对于本地存储设备而言也可以称为远程存储设备。
当接收到写IO请求计算出特征值以后,根据特征值分布策略判断将特征值发送给哪个存储设备,该策略可以根据情况进行设置,例如,可以随机将特征值发送给任何一台远程存储设备或者多台远程存储设备,或者按照一定的规律将特征值选择发送的存储设备,当将特征值发送给其他存储设备后,其他存储设备根据特征值的匹配结果生成响应消息,以返回给本地存储设备。
参照上述实施例的描述,该特征值可为指纹,其他存储设备中可存储指纹映射表,在指纹映射表中查找是否存在与待写入数据的指纹相同的指纹。当然特征值也可能为其他类型的值,如果为其他类型的值,映射表为类似的映射表,本步骤的原理与上述过程类似,在此就不在举例说明。
步骤30、根据所述响应消息对所述待写入数据进行重删处理。
本地存储设备根据响应消息的类型对待写入数据进行对应的重删处理,例如,如果其他存储设备中均没有与待写入数据相同的特征值,说明其他存储设备中不存在与待写入数据相同数据的重删副本,此时会返回对应的响应消息,本地存储设备需要建立重删副本,并据此更新其中的映射表,该映射表例如可以为指纹映射表和逻辑地址映射表等,如果其他存储设备中存在与待写入数据相同的特征值,并且已经与待写入数据相同数据的重删副本,此时会返回对应的响应消息,本地存储设备只需要据此更新逻辑地址映射表。
本实施例中,只需要将待写入数据的特征值发送给其他存储设备,其他存储设备只需要返回根据特征值查找的响应消息,本地存储设备根据响应消息对待写入数据进行重删处理,这样,不需要将待写入数据进行的传输,可以降低分布式存储系统的网络负担,并且,由于本地存储设备对待写入数据进行处理,在读IO请求时,只需要在本地存储设备中进行读取,不再需要通过网络将其他存储设备中的读取的数据进行传输,因此,也降低了读IO需要通过网络进行数据传输的概率,由于降低了数据网络传输的负担,减小了读写IO的延时,提升了IO处理速度和吞吐量。
在一个可选的实施方式中,上述步骤20中的响应消息为携带其他存储设备中不存在重删副本的响应消息;
上述的步骤30具体包括:
步骤301、根据响应消息为待写入数据分配重删副本存储空间并保存待写入数据;
步骤302、建立写IO请求中的逻辑地址与重删副本存储空间的物理地址之间的映射关系。
本实施例中,其他存储设备返回的响应消息为其他存储设备中不存在重删副本的响应消息,也就是其他存储设备中不存在与待写入数据相同的数据,此时,本地存储设备可为待写入数据分配存储空间,即重删副本存储空间,在该存储空间中保存待写入数据,在本地存储设备中建立了重删副本,后续为了使存储设备的LUN读取该重删副本,进一步建立逻辑地址与物理地址之间的映射关系,例如,可在逻辑地址映射表中添加一条记录,该记录即表示逻辑地址和物理地址之间的映射关系。该逻辑地址可以携带在写IO请求中,物理地址为重删副本存储空间所在的物理地址。
在一个可选的实施方式中,上述步骤301之后还包括以下步骤:
步骤303、异步的生成特征值添加消息,以使其他存储设备建立待写入数据的特征值与重删副本存储空间的物理地址之间的映射关系。
本实施例中,在建立重删副本时,使用异步方法生成添加消息,使其他存储设备据此建立特征值与物理地址之间的映射关系,该映射关系可包含在特征值映射表中,特征值映射表包括多条已完成重删处理的数据的特征值与物理地址之间的映射关系的记录。通过异步方式实现,不影响写IO的延时,同时异步方式可以通过聚合提升传输效率。
在一个可选的实施方式中,上述步骤20中的响应消息为携带重删副本的反冲突特征值和重删副本的物理地址的响应消息;
上述的步骤30具体包括:
步骤304、接收到响应消息后计算待写入数据的反冲突特征值。
其他存储设备返回的是携带重删副本的反冲突特征值和重删副本地址的响应消息,说明其他存储设备中存在待写入数据的特征值,此时,其他存储设备进一步的根据该特征值读取对应的重删副本,并利用反冲突算法计算反冲突特征值,然后将该反冲突特征值和重删副本的物理地址返回给本地存储设备。
本地存储设备收到该响应消息后,计算IO数据的反冲突特征值,该反冲突特征值指根据反冲突算法计算的特征值,反冲突算法指与预设的计算重删副本的特征值采用的算法不同的算法。预设的计算重删副本的特征值的算法可采用Hash算法,比如MD5算法、SHA1算法、SHA256算法或者CRC算法等,如果之前计算重删副本采用的是MD5算法算法,计算反冲突特征值的算法可采用SHA1或SHA256等。
步骤305、将待写入数据的反冲突特征值与重删副本的反冲突特征值进行比较。
实际中,对于两个不同内容的数据,通过两种不同的算法,得到的特征值相同的概率完全可以忽略。对两份特征值相同的数据,通过反冲突特征值算法计算,得到的结果如果相同,则证明两份数据的内容相同,如果结果不同,则两份数据的内容则不同。因此,通过比较待写入数据与重删副本的反冲突特征值,可以避免对二者进行数据内容的比较,这样不需要其他存储设备将重删副本通过网络进行传输,降低网络传输负担。
步骤306、根据比较结果对待写入数据进行重删处理。
在一个可选的实施方式中,上述的步骤305具体可以包括:比较待写入数据的反冲突特征值与重删副本的反冲突特征值是否一致;
上述的步骤306具体可以包括以下步骤:
步骤3061、当一致时,建立写IO请求中的逻辑地址与重删副本的物理地址之间的映射关系;
步骤3062、当不一致时,为待写入数据分配冲突副本存储空间并保存待写入数据;
步骤3063、建立写IO请求中的逻辑地址与冲突副本存储空间的物理地址之间的映射关系。
本实施例中,比较待写入数据和重删副本的反冲突特征值是否一致,如果一致说明待写入数据和重删副本的内容相同,此时,建立一映射关系,可在本地存储设备的逻辑地址表中添加写IO请求中的逻辑地址与重删副本的物理地址之间的映射关系;如果不一致,说明存在特征值冲突,待写入数据和重删副本的内容不相同,此时,需要为待写入数据分配存储空间并保存待写入数据,例如,可在冲突副本存储空间中为待写入数据分配存储空间,进一步的建立一映射关系,可在逻辑地址表中添加写IO请求中的逻辑地址与冲突副本存储空间的物理地址之间的映射关系。
在一个可选的实施方式中,上述步骤20中的响应消息为携带重删副本的响应消息;
上述的步骤30具体包括:
步骤307、将响应消息中的重删副本与待写入数据进行比较;
步骤308、根据比较结果对待写入数据进行重删处理。
在一个可选的实施方式中,上述步骤307具体可以为:比较待写入数据与重删副本是否一致;
上述的步骤308可以包括以下步骤:
步骤3081、当一致时,建立写IO请求中的逻辑地址与重删副本的物理地址之间的映射关系。
步骤3082、当不一致时,为待写入数据建立冲突副本存储空间并保存所出待写入数据;
步骤3093、建立写IO请求中的逻辑地址与冲突副本存储空间的物理地址之间的映射关系。
对于网络传输资源丰富而计算资源相对缺乏的情景,此时,其他存储设备可直接将重删副本的数据传输到本地存储设备,然后本地存储设备进行内容比较,替代反冲突特征值计算的过程。
本发明实施例还提供一种数据重删方法,该方法应用分布式存储系统的存储设备,该存储设备为与本地存储设备对应的远程存储设备,如图5所示,该方法包括以下步骤:
步骤40、接收待写入数据的特征值;
步骤41、对待写入数据的特征值进行查找以生成响应消息,并返回其他存储设备,其他存储设备为接收待写入数据的特征值的存储设备以外的存储设备。
在一个可选的实施方式中,上述的步骤41具体包括以下步骤:
步骤411、在特征值库中查找是否存在待写入数据的特征值;
步骤412、如果不存在待写入数据的特征值,生成不存在重删副本的响应消息。
在一个可选的实施方式中,上述的步骤41具体包括以下步骤:
步骤413、在特征值库中查找是否存在所述待写入数据的特征值;
步骤414、如果在特征库中查找到与待写入数据的特征值相同的特征值,读取特征值对应的重删副本,并生成携带重删副本的响应消息。
在一个可选的实施方式中,上述的步骤41具体包括以下步骤:
步骤415、在特征值库中查找是否存在所述待写入数据的特征值;
步骤416、如果在特征库中查找到与待写入数据的特征值相同的特征值,读取特征值对应的重删副本,并获取重删副本的反冲突特征值和重删副本的物理地址;
步骤417、生成携带反冲突特征值和重删副本的物理地址的响应消息。
上述的特征值库可以为指纹映射表,该映射表中可包括多条记录,该记录为已进行重删处理的重删副本的特征值与物理地址之间的映射关系。
在一个可选的实施方式中,获取重删副本的反冲突特征值包括:根据与预设的计算重删副本的特征值不同的算法计算重删副本的反冲突特征值。
上述实施例中的数据重删方法,与应用在本地存储设备的重删方法对应,可应用在远程存储设备,与本地存储设备的重删方法相配合,可应用在分布式存储系统中,进行数据重删处理。
下面介绍本发明实施例提供的数据重删方法应用在分布式存储系统中时,对数据进行重删处理的整个过程,如图6所示,该过程包括以下步骤:
步骤110、LUN接收到写IO请求;
步骤120、特征值计算;
本地存储设备的LUN接收写IO请求中的待写入数据,然后通过根据Hash算法计算待写入数据(以下称为IO数据)的特征值。
步骤130、特征值发送;
根据特征值分布策略将特征值发送至存储设备,可能将特征值发送给本地存储设备或者远程存储设备,这里的本地存储设备指接收写IO请求的存储设备,其他存储设备指除了本地存储设备以外的存储设备,此处称为远程存储设备,各存储设备之间通过网络连接。
当将特征值发送给本地存储设备时,则本地存储设备接下来执行以下步骤140-步骤190:
步骤140、是否存在特征值,可在特征值映射表中查找否存在待写入数据的特征值,如果特征值不存在,则执行以下步骤1510和步骤1520,然后再执行步骤9,如果特征值已经存在则执行以下步骤160;
步骤1510,分配重删副本存储空间并保存IO数据;
步骤1520,添加IO数据的特征值映射关系至特征值映射表;
可在存储设备中的特征值映射表中查找是否存在与IO数据的特征值相同的特征值,如果没有查找到相同的特征值,说明特征值不存在,也就是本地存储设备中没有IO数据的重删副本,此时,重删副本库可为IO数据分配存储空间(可称为重删副本存储空间),在该存储空间中将IO数据进行存储,并建立IO数据的特征值与为IO数据分配的存储空间所在的物理地址的映射关系,进而将其添加到特征值映射表中。
步骤160、读取特征值对应的重删副本;
步骤170、比较重删副本和IO数据内容是否一致,如果重删副本和IO数据的内容不一致,则执行以下步骤180,然后执行以下步骤190,如果重删副本和IO数据的内容一致则执行以下步骤190;
步骤180、分配冲突副本存储空间并保存IO数据;
如果在特征值映射表中查找到相同的特征值,说明IO数据的特征值已经存在,但是可能存在冲突特征值,所以还要进一步的进行内容比较,将特征值对应的副本数据与IO数据进行内容比较,如果内容不一致,说明出现的特征值冲突,此时还需要为IO数据分配存储空间(可通过冲突副本库为IO数据分配存储空间)并保存,可在存储控制器中单独划出一定容量的存储空间作为冲突副本存储空间,用于保存特征值存在冲突的IO数据。
如果重删副本和IO数据的内容一致,说明不存在特征值冲突,IO数据已经存在重删副本,不需要进行保存。
步骤190、LUN更新逻辑地址映射表。
为了后续LUN进行数据的读取,LUN需要更新逻辑地址映射表,在映射表中添加逻辑地址与物理之间的映射关系,逻辑地址可携带在写IO请求中,该逻辑地址是接收写IO请求的LUN的逻辑地址块的编号,如果为IO数据分配了冲突副本存储空间,该物理地址为分配的冲突副本存储空间的物理地址,如果没有为IO数据分配存储空间,该物理地址为重删副本的物理地址(即IO数据和重删副本内容一致的情况)。
需要说明的是,上述本地存储设备执行的步骤110-190,与相关技术提供的对数据重删处理的步骤类似,本发明所要保护的方法重点不在于对上述步骤的改进,重点在于上述图4和图5所示实施例描述的方法,具体为下述步骤210-620。
接收到IO数据特征值的远程存储设备执行以下步骤210-步骤330:
步骤210、接收特征值,即根据算法计算出的IO数据的特征值;
步骤220、是否存在特征值,可在特征值库中查找是否存在IO数据的特征值,该特征值库可以为特征值映射表,如果特征值存在,即在特征值库中查找到与IO数据的特征值相同的特征值,则执行以下步骤310-步骤312;如果特征值不存在,也就是未找到IO数据的特征值,则执行以下步骤320;
步骤310、读取特征值对应的重删副本;
步骤311、采用反冲突特征值算法计算反冲突特征值;
步骤312、生成携带反冲突特征值和重删副本的物理地址的响应消息,并返回给本地存储设备;
步骤320、生成携带不存在重删副本的响应消息,并返回给本地存储设备;
本地存储设备在接收到远程存储设备步骤320返回的响应消息后,执行以下步骤510和步骤520,然后执行上述步骤190;
步骤510、收到响应消息,分配重删副本存储空间并保存IO数据;
步骤520、异步生成特征值添加消息,并发送给远程存储设备,以使远程存储设备执行步骤330、添加IO数据特征值映射关系,即建立IO数据的特征值与重删副本存储空间的物理地址之间的映射关系,然后将该映射关系添加至特征值映射表中;
本地存储设备在接收到远程存储设备步骤312返回的响应消息后,执行以下步骤610-步骤620;
步骤610、收到响应消息,计算IO数据的反冲突特征值;
步骤620、比较IO数据与重删副本的反冲突特征值是否一致,如果二者一致,则执行上述步骤190,如果二者不一致,则执行上述步骤180,然后接着执行上述步骤190;
最后写IO返回。
本发明实施例还提供一种数据重删方法,可应用在分布式存储系统中时,对数据进行重删处理的整个过程,如图7所示,该过程与上述图6的方法有很多相同步骤,此处,相同步骤采用了相同的序号,不同之处在于步骤311和步骤312,本方法中在上述步骤310之后,也就是在读取特征值对应的重删副本之后,执行的以下步骤710;
步骤710、生成携带重删副本的响应消息并返回,即返回给本地存储设备;
本地存储设备接收到上述步骤710的响应消息后,执行以下步骤810;
步骤810、收到响应消息,比较IO数据与重删副本的内容是否一致,如果一致则执行上述的步骤190,如果不一致则执行上述的步骤180,接着执行上述步骤190。
本实施例中数据重删方法,应用于分布式存储系统的网络传输资源丰富而计算资源相对缺乏的情景。
下面结合图8说明根据上述实施例提供的数据重删方法应用在分布式存储系统时,进行数据重删处理后各存储设备的结构。
如图8所示,该分布式存储系统包括3个存储设备,分布式存储设备A、存储设备B和存储设备C,每个存储设备的LUN均收到了写IO请求,这个过程中需要进行重删处理,其中存储设备A的写IO最先到达,然后是存储设备C的IO到达,最后是存储设备B写IO到达,最终得到的逻辑地址映射表、特征值映射表和重删副本库分布情况如图8所示:
存储设备A的写IO到达时,通过逻辑地址1和逻辑地址2读取的IO数据1和IO数据2没有对应的重删副本,通过逻辑地址3读取的IO数据3有对应的重删副本,经过重删处理后,新生成的IO数据1和IO数据2的重删副本,重删副本库a为新生成的重删副本分配存储空间,并保存在本地,并且更新了逻辑地址映射表a,在逻辑地址映射表a中添加了IO数据1和IO数据2的逻辑地址与物理地址的映射关系,但IO数据1、IO数据2和IO数据3的特征值映射关系根据特征值分布规则分布在存储设备A和B,存储设备A的特征值映射表a包含IO数据3的特征值映射关系,存储设备B的特征值映射表b包含IO数据1和IO数据2的特征值映射关系,即存储设备B的特征值映射表b中新添加了IO数据1和IO数据2的特征值与物理地址之间的映射关系。
存储设备C的写IO到达时,其中通过逻辑地址7读取的IO数据7在存储设备A中找到重删副本,需更新逻辑地址映射表,即在逻辑地址映射表c中添加IO数据7的逻辑地址与重删副本的物理地址之间的映射关系,另外两个通过逻辑地址8和逻辑地址9读取的IO数据8和IO数据9相同,但没有重删副本,新生成重删副本,重删副本库c为新生成的重删副本分配存储空间,保存在本地,并更新逻辑地址映射表c,在其中添加IO数据8和IO数据9的逻辑地址与新生成的重删副本的物理地址之间的映射关系,特征值映射表c不发生变化。
存储设备B的写IO到达时,通过逻辑地址5读取的IO数据5没有找到重删副本,新生成重删副本,重删副本库b为新生成的重删副本分配存储空间,保存在本地,并在逻辑地址映射表b中添加IO数据5的逻辑地址与物理地址之间的映射关系,其中一个通过逻辑地址4读取的IO数据4在存储设备A中找到重删副本,另一个通过逻辑地址6读取的IO数据6在存储设备C中找到重删副本,在逻辑地址映射表b中添加IO数据4和IO数据6的逻辑地址与物理地址之间的映射关系。
有上述描述可知,上述分布式存储系统中,特征值映射表和重删副本都是分段分布在不同存储设备中,但是特征值映射表的分段和重删副本的分段是相互独立的分配原则,没有依赖关系,通过分离特征值映射表和重删副本,让所有新生成的重删副本的写入都在本地完成,在进行读IO时,提高了读请求的数据在本地重删副本中的概率,提高了读IO的处理效率。
本发明实施例还提供一种存储设备,包括存储器和处理器,存储器中存储有多条指令,该指令适于由处理器加载并执行上述实施例中的数据重删方法。
如图9所示,上述的存储设备可以是个人计算机,服务器,或者网络设备等,存储设备可以包括处理器和存储器,存储器可以为非易失性存储器(比如硬盘或者磁盘),还可以包括内存和内部总线等,存储器中存储多条指令,处理器可以将相应指令存储器读入内存中然后运行以执行上述的数据重删方法。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
Claims (15)
1.一种数据重删方法,其特征在于,所述方法应用分布式存储系统中的存储设备,所述方法包括:
响应写IO请求中的待写入数据,且计算所述待写入数据的特征值;
当根据特征值分布策略将所述待写入数据的特征值发送至其他存储设备时,接收其他存储设备基于所述待写入数据的特征值进行查找返回的响应消息,所述其他存储设备为响应写IO请求的存储设备以外的存储设备;
根据所述响应消息对所述待写入数据进行重删处理。
2.根据权利要求1所述的方法,其特征在于,所述响应消息为携带其他存储设备中不存在重删副本的响应消息;
所述根据所述响应消息对所述待写入数据进行重删处理,具体包括:
根据所述响应消息为所述待写入数据分配重删副本存储空间并保存所述待写入数据;
建立写IO请求中的逻辑地址与所述重删副本存储空间的物理地址之间的映射关系。
3.根据权利要求2所述的方法,其特征在于,在根据所述响应消息为所述待写入数据分配重删副本存储空间并保存所出待写入数据之后,还包括:
异步生成特征值添加消息,以使其他存储设备建立所述待写入数据的特征值与所述重删副本存储空间的物理地址之间的映射关系。
4.根据权利要求1所述的方法,其特征在于,所述响应消息为携带重删副本的反冲突特征值和重删副本的物理地址的响应消息;
所述根据所述响应消息完成对所述待写入数据的重删处理,具体包括:
接收到所述响应消息后计算所述待写入数据的反冲突特征值;
将所述待写入数据的反冲突特征值与所述重删副本的反冲突特征值进行比较;
根据所述比较结果对所述待写入数据进行重删处理。
5.根据权利要求4所述的方法,其特征在于,所述将所述待写入数据的反冲突特征值与所述重删副本的反冲突特征值进行比较,具体包括:
比较所述待写入数据的反冲突特征值与所述重删副本的反冲突特征值是否一致;
所述根据所述比较结果完成对所述待写入数据的重删处理,具体包括:
当一致时,建立写IO请求中的逻辑地址与所述重删副本的物理地址之间的映射关系。
6.根据权利要求4所述的方法,其特征在于,所述将所述待写入数据的反冲突特征值与所述重删副本的反冲突特征值进行比较,具体包括:
比较所述待写入数据的反冲突特征值与所述重删副本的反冲突特征值是否一致;
所述根据所述比较结果完成对所述待写入数据的重删处理,具体包括:
当不一致时,为所述待写入数据分配冲突副本存储空间并保存所述待写入数据;
建立写IO请求中的逻辑地址与所述冲突副本存储空间的物理地址之间的映射关系。
7.根据权利要求1所述的方法,其特征在于,所述响应消息为携带重删副本的响应消息;
所述根据所述响应消息对所述待写入数据进行重删处理,具体包括:
将所述响应消息中的重删副本与所述待写入数据进行比较;
根据所述比较结果对所述待写入数据进行重删处理。
8.根据权利要求7所述的方法,其特征在于,所述将所述响应消息中的重删副本与所述待写入数据进行比较,具体包括:
比较所述待写入数据与所述重删副本是否一致;
所述根据所述比较结果对所述待写入数据进行重删处理,具体包括:
当一致时,建立写IO请求中的逻辑地址与所述重删副本的物理地址之间的映射关系。
9.根据权利要求7所述的方法,其特征在于,所述将所述响应消息中的重删副本与所述待写入数据进行比较,具体包括:
比较所述待写入数据与所述重删副本是否一致;
所述根据所述比较结果对所述待写入数据进行重删处理,具体包括:
当不一致时,为所述待写入数据建立冲突副本存储空间并保存所述待写入数据;
建立写IO请求中的逻辑地址与所述冲突副本存储空间的物理地址之间的映射关系。
10.一种数据重删方法,其特征在于,所述方法应用分布式存储系统的存储设备,所述方法包括:
接收待写入数据的特征值;
对所述待写入数据的特征值进行查找以生成响应消息,并返回其他存储设备,所述其他存储设备为接收所述待写入数据的特征值的存储设备以外的存储设备。
11.根据权利要求10所述的方法,其特征在于,所述对所述待写入数据的特征值进行查找以生成响应消息,具体包括:
在特征值库中查找是否存在所述待写入数据的特征值;
如果不存在所述待写入数据的特征值,生成不存在重删副本的响应消息。
12.根据权利要求10所述的方法,其特征在于,所述对所述待写入数据的特征值进行查找以生成响应消息,具体包括:
在特征值库中查找是否存在所述待写入数据的特征值;
如果在所述特征值库中查找到与所述待写入数据的特征值相同的特征值,读取所述特征值对应的重删副本,并生成携带所述重删副本的响应消息。
13.根据权利要求10所述的方法,其特征在于,所述对所述待写入数据的特征值进行查找以生成响应消息,具体包括:
在特征值库中查找是否存在所述待写入数据的特征值;
如果在所述特征值库中查找到与所述待写入数据的特征值相同的特征值,读取所述特征值对应的重删副本,并获取所述重删副本的反冲突特征值和所述重删副本的物理地址;
生成携带所述反冲突特征值和所述重删副本的物理地址的响应消息。
14.根据权利要求13所述的方法,其特征在于,所述获取所述重删副本的反冲突特征值包括:
根据与预设的计算所述重删副本的特征值不同的算法计算所述重删副本的反冲突特征值。
15.一种存储设备,所述存储设备包括存储器和处理器,其特征在于,所述存储器中存储有多条指令,所述指令适于由处理器加载并执行权利要求1-14任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710392991.6A CN107193503B (zh) | 2017-05-27 | 2017-05-27 | 一种数据重删方法及存储设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710392991.6A CN107193503B (zh) | 2017-05-27 | 2017-05-27 | 一种数据重删方法及存储设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107193503A true CN107193503A (zh) | 2017-09-22 |
CN107193503B CN107193503B (zh) | 2020-05-29 |
Family
ID=59875977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710392991.6A Active CN107193503B (zh) | 2017-05-27 | 2017-05-27 | 一种数据重删方法及存储设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107193503B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109086172A (zh) * | 2018-09-21 | 2018-12-25 | 郑州云海信息技术有限公司 | 一种数据处理的方法以及相关装置 |
CN109783469A (zh) * | 2018-12-14 | 2019-05-21 | 上海威固信息技术股份有限公司 | 一种基于内容感知的数据去重方法与装置 |
CN110674057A (zh) * | 2019-09-06 | 2020-01-10 | 苏州浪潮智能科技有限公司 | 一种数据处理方法及系统 |
CN112988080A (zh) * | 2021-05-10 | 2021-06-18 | 鹏城实验室 | 多数据页同时写入方法、3d闪存装置及计算机存储介质 |
CN113253947A (zh) * | 2021-07-16 | 2021-08-13 | 苏州浪潮智能科技有限公司 | 一种重删方法、装置、设备及可读存储介质 |
CN114442961A (zh) * | 2022-02-07 | 2022-05-06 | 苏州浪潮智能科技有限公司 | 数据处理方法、装置、计算机设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102982180A (zh) * | 2012-12-18 | 2013-03-20 | 华为技术有限公司 | 数据存储方法及设备 |
CN103514250A (zh) * | 2013-06-20 | 2014-01-15 | 易乐天 | 一种全局重复数据删除的方法和系统及存储装置 |
CN103547329A (zh) * | 2012-12-12 | 2014-01-29 | 华为技术有限公司 | 集群系统中数据处理方法及装置 |
CN103970875A (zh) * | 2014-05-15 | 2014-08-06 | 华中科技大学 | 一种并行重复数据删除方法 |
CN105242881A (zh) * | 2015-10-12 | 2016-01-13 | 创新科软件技术(深圳)有限公司 | 分布式存储系统及其数据读写方法 |
US9400610B1 (en) * | 2012-06-13 | 2016-07-26 | Emc Corporation | Method for cleaning a delta storage system |
CN106095332A (zh) * | 2016-06-01 | 2016-11-09 | 杭州宏杉科技有限公司 | 一种数据重删方法及装置 |
US20170031830A1 (en) * | 2015-07-30 | 2017-02-02 | Netapp, Inc. | Deduplicated host cache flush to remote storage |
CN106527973A (zh) * | 2016-10-10 | 2017-03-22 | 杭州宏杉科技股份有限公司 | 一种数据重复删除的方法及装置 |
-
2017
- 2017-05-27 CN CN201710392991.6A patent/CN107193503B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9400610B1 (en) * | 2012-06-13 | 2016-07-26 | Emc Corporation | Method for cleaning a delta storage system |
CN103547329A (zh) * | 2012-12-12 | 2014-01-29 | 华为技术有限公司 | 集群系统中数据处理方法及装置 |
CN102982180A (zh) * | 2012-12-18 | 2013-03-20 | 华为技术有限公司 | 数据存储方法及设备 |
CN103514250A (zh) * | 2013-06-20 | 2014-01-15 | 易乐天 | 一种全局重复数据删除的方法和系统及存储装置 |
CN103970875A (zh) * | 2014-05-15 | 2014-08-06 | 华中科技大学 | 一种并行重复数据删除方法 |
US20170031830A1 (en) * | 2015-07-30 | 2017-02-02 | Netapp, Inc. | Deduplicated host cache flush to remote storage |
CN105242881A (zh) * | 2015-10-12 | 2016-01-13 | 创新科软件技术(深圳)有限公司 | 分布式存储系统及其数据读写方法 |
CN106095332A (zh) * | 2016-06-01 | 2016-11-09 | 杭州宏杉科技有限公司 | 一种数据重删方法及装置 |
CN106527973A (zh) * | 2016-10-10 | 2017-03-22 | 杭州宏杉科技股份有限公司 | 一种数据重复删除的方法及装置 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109086172A (zh) * | 2018-09-21 | 2018-12-25 | 郑州云海信息技术有限公司 | 一种数据处理的方法以及相关装置 |
CN109783469A (zh) * | 2018-12-14 | 2019-05-21 | 上海威固信息技术股份有限公司 | 一种基于内容感知的数据去重方法与装置 |
CN110674057A (zh) * | 2019-09-06 | 2020-01-10 | 苏州浪潮智能科技有限公司 | 一种数据处理方法及系统 |
CN112988080A (zh) * | 2021-05-10 | 2021-06-18 | 鹏城实验室 | 多数据页同时写入方法、3d闪存装置及计算机存储介质 |
CN113253947A (zh) * | 2021-07-16 | 2021-08-13 | 苏州浪潮智能科技有限公司 | 一种重删方法、装置、设备及可读存储介质 |
CN114442961A (zh) * | 2022-02-07 | 2022-05-06 | 苏州浪潮智能科技有限公司 | 数据处理方法、装置、计算机设备及存储介质 |
CN114442961B (zh) * | 2022-02-07 | 2023-08-08 | 苏州浪潮智能科技有限公司 | 数据处理方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107193503B (zh) | 2020-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107193503A (zh) | 一种数据重删方法及存储设备 | |
US10540323B2 (en) | Managing I/O operations in a storage network | |
US11249834B2 (en) | Storage system with coordinated recovery across multiple input-output journals of different types | |
US20200326877A1 (en) | Storage system with efficient detection and clean-up of stale data for sparsely-allocated storage in replication | |
CN104408111B (zh) | 一种删除重复数据的方法及装置 | |
KR101657561B1 (ko) | 클러스터 시스템에서의 데이터 처리 방법 및 장치 | |
CN109327539A (zh) | 一种分布式块存储系统及其数据路由方法 | |
CN106030498B (zh) | 存储装置和数据处理方法以及存储系统 | |
CN103970875B (zh) | 一种并行重复数据删除方法和系统 | |
US7979394B2 (en) | Method of managing storage and retrieval of data objects | |
CN108268219A (zh) | 一种处理io请求的方法及装置 | |
CN108459826A (zh) | 一种处理io请求的方法及装置 | |
CN103514210B (zh) | 小文件处理方法及装置 | |
US20140115252A1 (en) | Block storage-based data processing methods, apparatus, and systems | |
CN103959256A (zh) | 基于指纹的数据重复删除 | |
US20210185142A1 (en) | Cache storage for streaming data | |
CN106874348A (zh) | 文件存储和索引方法、装置及读取文件的方法 | |
US11360682B1 (en) | Identifying duplicative write data in a storage system | |
CN102420771B (zh) | 高速网络环境中提高tcp并发连接速度的方法 | |
CN106878370A (zh) | 一种本地缓存的更新方法和设备 | |
CN107544869A (zh) | 一种数据恢复方法和装置 | |
CN107391544A (zh) | 列式存储数据的处理方法、装置、设备及计算机储存介质 | |
CN107038092A (zh) | 一种数据复制方法及装置 | |
CN109445703A (zh) | 一种基于块级数据去重的Delta压缩存储组件 | |
CN106095332A (zh) | 一种数据重删方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |