CN107632786B - 一种数据重删的管理方法及装置 - Google Patents

一种数据重删的管理方法及装置 Download PDF

Info

Publication number
CN107632786B
CN107632786B CN201710854936.4A CN201710854936A CN107632786B CN 107632786 B CN107632786 B CN 107632786B CN 201710854936 A CN201710854936 A CN 201710854936A CN 107632786 B CN107632786 B CN 107632786B
Authority
CN
China
Prior art keywords
data
deduplication
target lun
preset
lun
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710854936.4A
Other languages
English (en)
Other versions
CN107632786A (zh
Inventor
扈海龙
丁志刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Macrosan Technologies Co Ltd
Original Assignee
Macrosan Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Macrosan Technologies Co Ltd filed Critical Macrosan Technologies Co Ltd
Priority to CN201710854936.4A priority Critical patent/CN107632786B/zh
Publication of CN107632786A publication Critical patent/CN107632786A/zh
Application granted granted Critical
Publication of CN107632786B publication Critical patent/CN107632786B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本申请提供一种数据重删的管理方法及装置,应用于存储设备,所述存储设备搭载了若干LUN,所述方法包括:基于预设的重删检测策略,确定目标LUN;计算所述目标LUN的有效重删率,比较所述目标LUN的有效重删率和预设的有效重删率阈值;其中,所述有效重删率为所述目标LUN中与全局范围内重复的数据块的数量和所述目标LUN数据块总量的比值;如果所述目标LUN的有效重删率小于所述有效重删率阈值,禁用所述目标LUN的重删功能。本申请技术方案,将系统资源聚集在有效重删率不小于有效重删率阈值的LUN上,提高了重删的效率,减少重删造成的资源浪费,提高了存储设备的工作效率。

Description

一种数据重删的管理方法及装置
技术领域
本申请涉及存储领域,特别涉及一种数据重删的管理方法及装置。
背景技术
重删技术,全称重复数据删除,也称为智能压缩或单一实例存储,是一种自动搜索重复数据,将相同数据只保留唯一的副本,以达到消除冗余数据、降低存储容量需求的存储技术。
实现重删技术的基本方法有许多中,目前常用的是基于Hash(译为散列或哈希)算法实现的重删方法。基于Hash的重删方法可以计算数据块的散列值,然后将该散列值与已保存的数据块的散列值相匹配,如果未匹配到相同的散列值,则可以保存上述数据块;如果匹配到相同的散列值,则可以在确定上述数据块与已保存的数据块内容相同时,删除重复的数据块。
然而,散列值计算以及匹配过程需要消耗大量的系统资源,降低了存储设备的工作效率。
发明内容
有鉴于此,本申请提供一种数据重删的管理方法及装置,用于减少重删造成的资源消耗,提高存储设备的工作效率。
具体地,本申请是通过如下技术方案实现的:
一种数据重删的管理方法,应用于存储设备,所述存储设备搭载了若干LUN,包括:
基于预设的重删检测策略,确定目标LUN;
计算所述目标LUN的有效重删率,比较所述目标LUN的有效重删率和预设的有效重删率阈值;其中,所述有效重删率为所述目标LUN中与全局范围内重复的数据块的数量和所述目标LUN数据块总量的比值;
如果所述目标LUN的有效重删率小于所述有效重删率阈值,禁用所述目标LUN的重删功能。
在所述数据重删的管理方法中,所述基于预设的重删检测策略,确定目标LUN,包括:
基于预设的周期,将所述若干LUN依次确定为目标LUN。
在所述数据重删的管理方法中,所述基于预设的重删检测策略,确定目标LUN,包括:
检测所述若干LUN的数据存储量;
如果任一LUN的数据存储量达到预设的存储量阈值,将其确定为目标LUN。
在所述数据重删的管理方法中,所述计算所述目标LUN的有效重删率,包括:
获取所述目标LUN的数据地址集;其中,所述数据地址集包括所述目标LUN中的数据块的逻辑地址;
遍历所述数据地址集中的逻辑地址,在预设的逻辑地址映射表中查找与所述逻辑地址对应的预设标识位;其中,所述逻辑地址映射表包括所述目标LUN中的数据块的逻辑地址和所述预设标识位的映射关系,重复的数据块的逻辑地址对应的所述预设标识位的取值为第一预设值;
如果查找到的预设标识位的取值为第一预设值,重复的数据块的数量加一;
如果所述数据地址集中的逻辑地址遍历完成,将所述重复的数据块的数量除以所述数据地址集的数据块总数,获得所述有效重删率。
在所述数据重删的管理方法中,所述获取所述目标LUN的数据地址集,包括:
基于预设的抽样策略,对所述目标LUN中的数据块进行抽样;
生成所述数据地址集;所述数据地址集包括抽样结果中的数据块的逻辑地址。
在所述数据重删的管理方法中,所述逻辑地址映射表中的所述预设标识位在数据块写入所述目标LUN的重删过程中填写。
一种数据重删的管理装置,应用于存储设备,所述存储设备搭载了若干LUN,包括:
确定单元,用于基于预设的重删检测策略,确定目标LUN;
计算单元,用于计算所述目标LUN的有效重删率,比较所述目标LUN的有效重删率和预设的有效重删率阈值;其中,所述有效重删率为所述目标LUN中与全局范围内重复的数据块的数量和所述目标LUN数据块总量的比值;
禁用单元,用于如果所述目标LUN的有效重删率小于所述有效重删率阈值,禁用所述目标LUN的重删功能。
在数据重删的管理装置中,所述确定单元,进一步用于:
基于预设的周期,将所述若干LUN依次确定为目标LUN。
在数据重删的管理装置中,所述确定单元,进一步用于:
检测所述若干LUN的数据存储量;
如果任一LUN的数据存储量达到预设的存储量阈值,将其确定为目标LUN。
在数据重删的管理装置中,所述计算单元,进一步用于:
获取所述目标LUN的数据地址集;其中,所述数据地址集包括所述目标LUN中的数据块的逻辑地址;
遍历所述数据地址集中的逻辑地址,在预设的逻辑地址映射表中查找与所述逻辑地址对应的预设标识位;其中,所述逻辑地址映射表包括所述目标LUN中的数据块的逻辑地址和所述预设标识位的映射关系,重复的数据块的逻辑地址对应的所述预设标识位的取值为第一预设值;
如果查找到的预设标识位的取值为第一预设值,重复的数据块的数量加一;
如果所述数据地址集中的逻辑地址遍历完成,将所述重复的数据块的数量除以所述数据地址集的数据块总数,获得所述有效重删率。
在数据重删的管理装置中,所述计算单元,进一步用于:
基于预设的抽样策略,对所述目标LUN中的数据块进行抽样;
生成所述数据地址集;所述数据地址集包括抽样结果中的数据块的逻辑地址。
在数据重删的管理装置中,所述逻辑地址映射表中的所述预设标识位在数据块写入所述目标LUN的重删过程中填写。
在本申请技术方案中,存储设备基于预设的重删检测策略,确定目标LUN,然后计算所述目标LUN的有效重删率,比较所述目标LUN的有效重删率和预设的有效重删率阈值;其中,所述有效重删率为所述目标LUN中与全局范围内重复的数据块的数量和所述目标LUN数据块总量的比值;如果所述目标LUN的有效重删列表小于所述有效重删率阈值,则可以禁用所述目标LUN的重删功能;
由于存储设备可以将有效重删率小于有效重删率阈值的目标LUN禁用重删功能,从而将系统资源聚集在有效重删率不小于有效重删率阈值的LUN上,提高了重删的效率,减少重删造成的资源浪费,进而提高存储设备的工作效率。
附图说明
图1是本申请示出的一种逻辑地址映射表;
图2是本申请示出的一种重删指纹映射库;
图3是本申请示出的一种全局重删示意图;
图4是本申请示出的另一种全局重删示意图;
图5是本申请示出的一种数据重删的管理方法的流程图;
图6是本申请示出的另一种逻辑地址映射表;
图7是本申请示出的一种数据重删的方法的流程图;
图8是本申请示出的一种计算有效重删率的方法的流程图;
图9是本申请示出的一种数据重删的管理装置的实施例框图;
图10是本申请示出的一种数据重删的管理装置的硬件结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对现有技术方案和本发明实施例中的技术方案作进一步详细的说明。
重删技术是一种自动搜索重复数据,将相同数据只保留唯一的副本,以达到消除冗余数据、降低存储容量需求的存储技术。
在重删技术中,存储设备会生成大量映射元数据,用于实现重删功能并管理已存储的数据块;其中,映射元数据可以包括逻辑地址映射表和重删指纹映射库。
参见图1,为本申请示出的一种逻辑地址映射表,如图1所示,该逻辑地址映射表中包括已存储的数据块的逻辑地址和指纹的映射关系,其中,指纹即为数据块经HASH算法计算获得的散列值。图1中的“Addr_1”、“Addr_2”、“Addr_3”等即为逻辑地址,“HASH-A”、“HASH-B”、“HASH-C”等即为指纹。
参见图2,为本申请示出的一种重删指纹映射库,如图2所示,该重删指纹映射库包括已存储的数据块的指纹和物理地址的映射关系,图2中的“PBA-1”、“PBA-2”、“PBA-3”等即为物理地址。
下面以在线重删为例说明重删过程:存储设备响应于接收到的写IO请求,对该写IO请求中携带的待写入数据进行指纹计算,然后将计算得到的散列值在上述重删指纹映射库中进行查找,确定能否查找到相同的散列值。
一方面,如果无法查找到相同的散列值,则可以为上述待写入数据分配存储空间,并存储上述待写入数据,然后将上述待写入数据的逻辑地址和散列值的映射关系保存至上述逻辑地址映射表,将上述待写入数据的散列值和物理地址的映射关系保存至上述重删指纹映射库;
另一方面,如果可以查找到相同的散列值,则可以将该散列值在上述重删指纹映射库中查找对应于该散列值的物理地址,然后从该物理地址中读取已存储的数据块,并比较上述待写入数据和已存储的数据块的内容是否一致;
当上述待写入数据和已存储的数据块的内容一致,则无需重复保存上述待写入数据,只需在上述逻辑地址映射表中保存上述待写入数据的逻辑地址和散列值的映射关系;
当上述待写入数据和已存储的数据块的内容不一致,则可以为上述待写入数据分配存储空间,并存储上述待写入数据,然后在上述逻辑地址映射表中保存上述待写入数据的逻辑地址和物理地址的映射关系,此时,无需在上述逻辑地址映射表中保存上述待写入数据的散列值。
重删过程的散列值计算及查表匹配需要消耗大量的系统资源,降低了存储设备的工作效率。
全局重删指的是存储设备在整个存储系统范围内进行重复数据删除;所有参与全局重删的LUN(Logical Unit Number,逻辑单元号)共享重删后保留的数据块副本。
参见图3,为本申请示出的一种全局重删示意图,如图3所示,存储设备上搭载了4个不同的存储单元:LUN-1、LUN-2、LUN-3和LUN-4,各存储单元内分别被写入若干数据块。图3中不同字母代表内容不同的数据块,如图3所示,当前4个LUN中分别写入了6个数据块,这些数据块最终存储在全局重删池中。其中,全局重删池即为保存各数据块的唯一副本的物理存储空间,全局重删池保存数据块副本消耗的物理存储空间就是存储系统实际使用的存储空间。
图3所示,当前存储系统的全局重删率=(所有LUN写入的数据量-存储空间实际使用量)/所有LUN写入的数据量=(24-12):24=50%。
存储设备搭载的多个LUN中,一些LUN内写入的重复数据较多,一些LUN内写入的重复数据较少,由于重删会给系统带来大量的资源消耗(主要是CPU消耗和内存消耗),将用于重删的系统资源聚集在重复数据多的LUN上,可以提高重删的效率;而禁用重复数据少的LUN的重删功能,可以减少重删造成的资源浪费。
存储设备的多个LUN可以面向不同的业务,各个LUN因面向的业务不同,写入的重复数据的数量不同。
以图3为例,LUN-1的6个数据块,实际上是两组互相重复的数据块,且与LUN-2、LUN-3的数据块重复。可以推断LUN-1、LUN-2和LUN-3面向的业务类似,后续还会写入重复的数据块。
而LUN-4的数据块在全局范围内都是唯一的,没有重复数据,可以推断LUN-4面向的业务与LUN-1、LUN-2及LUN-3面向的业务差异较大,后续写入LUN-4的数据块与写入其它LUN数据块仍存在差异。如果禁用LUN-4的重删功能,全局重删率仍然保持在50%,不会新增物理存储空间的消耗。
可见,在维护全局重删的过程中,选择禁用重复数据少的LUN的重删功能,可以在一定的资源消耗的范围内,发挥出最好的重删效率。而如何选择禁用重删功能的LUN,显得非常关键。
现有技术通过LUN为单位,基于已写入的数据块,分别计算重删率,然后禁用重删率低的LUN的重删功能。
然而,以LUN为单位计算出的重删率,作为选择禁用重删功能的LUN的依据,并不能准确选择合适的LUN,可能会导致物理存储空间的浪费。
仍以图3为例,4个存储单元的重删率分别如下:LUN-1的重删率为66%;LUN-2的重删率为50%;LUN-3的重删率为0%;LUN-4的重删率为0%。选择LUN-3和LUN-4禁用重删功能。
参照图4,为本申请示出的另一种全局重删示意图,如图4所示,LUN-3和LUN-4被禁用重删功能后,存储设备上只有LUN-1和LUN-2参与全局重删。其中,由于LUN-1、LUN-2和LUN-3面向的业务类似,这3个存储单元内存在重复的数据块。LUN-3中与LUN-1及LUN-2重复的数据块(比如图4中,字母M、N、O代表的数据块),并不能共享全局重删池中的数据块副本,需独立存储在LUN-3对应的物理存储空间中。
可见,禁用不合适的LUN的重删功能会增大存储系统实际使用的存储空间。
有鉴于此,本申请技术方案提供了一种数据重删的管理方法,以目标LUN的有效重删率和预设的有效重删率阈值的比较结果为依据,确定是否禁用目标LUN的重删功能;其中,有效重删率为目标LUN中与全局范围内重复的数据块的数量和目标LUN数据块总量的比值。本申请选择禁用重删功能的LUN的依据是从全局的角度确定的LUN重复数据的占比,可以选择最合适的LUN禁用重删功能;相比现有技术,避免了因禁用自身重删率低、而与其它LUN存在较多重复数据的LUN的重删功能,导致物理存储空间浪费的问题。
参见图5,为本申请示出的一种数据重删的管理方法的流程图,所述方法应用于存储设备,包括以下步骤:
步骤501:基于预设的重删检测策略,确定目标LUN。
步骤502:计算所述目标LUN的有效重删率,比较所述目标LUN的有效重删率和预设的有效重删率阈值;其中,所述有效重删率为所述目标LUN中与全局范围内重复的数据块的数量和所述目标LUN数据块总量的比值。
步骤503:如果所述目标LUN的有效重删率小于所述有效重删率阈值,禁用所述目标LUN的重删功能。
其中,上述存储设备搭载了若干LUN,并存有逻辑地址映射表和重删指纹映射库。
上述有效重删率阈值可以基于存储设备的应用情况进行调节,当存储设备的业务负载能力高,物理存储空间充裕的情况下,可以将上述有效重删率阈值调高,比如,40%;当存储设备的业务负载能力适中或较低,物理存储空间紧张的情况下,可以将上述有效重删率阈值调低,比如,20%。
为达到本申请中计算目标LUN的有效重删率的目的,可以预先对逻辑地址映射表进行扩展。参见图6,为本申请示出的另一种逻辑地址映射库,如图6所示,该逻辑地址映射表中每一条映射记录都新增了预设标识位,该预设标识位的取值为第一预设值或第二预设值。
其中,第一预设值表示这条映射记录对应的数据块在IO写入LUN时,在全局范围内存在相同的数据块,因此该数据块为重复的数据块;第二预设值表示这条映射记录对应的数据块在IO写入LUN时,在全局范围内不存在相同的数据块,因此该数据块不是重复的数据块。
需要说明的是,上述第一预设值可以是1,上述第二预设值可以是0,此时,上述预设标识位只有0或1两个取值,每条映射记录的预设标识位字段只需消耗1个bit的存储空间。因此,新增的预设标识位字段带来的存储空间的消耗非常小。
在本申请实施方式中,上述逻辑地址映射表中的上述预设标识位可以是在数据块写入目标LUN的重删过程中填写。
参见图7,为本申请示出的一种数据重删的方法的流程图,如图7所示,存储设备响应于接收到的写IO请求,对该写IO请求中携带的待写入数据进行指纹计算,然后将计算得到的散列值在上述重删指纹映射库中查找,确定能否查找到相同的散列值。
一方面,如果无法查找到相同的散列值,则可以为上述待写入数据分配存储空间,并存储上述待写入数据,然后将上述待写入数据的散列值和物理地址的映射关系保存至上述重删指纹映射库,将上述待写入数据的逻辑地址、预设标识位和散列值的映射关系保存至上述逻辑地址映射表;其中,上述预设标识位被填为第二预设值;
另一方面,如果查找到相同的散列值,则可以读取该散列值对应的物理地址中已存储的数据块,并确定上述待写入数据与已存储的数据块是否一致;
如果上述待写入数据和已存储的数据块的内容一致,则上述待写入数据为重复的数据块,无需重复保存,只需在上述逻辑地址映射表中保存上述待写入数据的逻辑地址、预设标识位和散列值的映射关系,并将上述预设标识位填为第一预设值;
此外,如果上述待写入数据和已存储数据块的内容不一致,则可以为上述待写入数据分配存储空间,并存储上述待写入数据,然后将上述待写入数据的逻辑地址、预设标识位和物理地址保存至上述逻辑地址映射表;其中,上述预设标识位被填为第二预设值。
需要指出的是,如果数据块A写入LUN时不是重复的数据块,后续写入的数据块B与数据块A的内容相同,则数据块A对应的逻辑地址映射表项中的预设标识位仍为第二预设值,数据块B对应的逻辑地址映射表项中的预设标识位被填为第一预设值。在后续计算有效重删率的过程中,只有数据块B是重复的数据块。
通过上述措施,存储设备后续可以基于上述预设标识位确定目标LUN中的数据块是否与全局范围内的数据块重复,并进而计算目标LUN的有效重删率。
在本申请实施例中,存储设备可以基于预设的重删检测策略,确定目标LUN。其中,上述重删检测策略可以由用户根据存储设备的实际应用环境进行预配置。
在示出的一种实施方式中,存储设备可以基于预设的周期,将本地搭载的若干LUN依次确定为目标LUN,然后执行后续的步骤。
其中,上述预设的周期可以是固定的周期,比如,每天的零时,将所有LUN确定为目标LUN;也可以是变化的周期,比如,工作日的零时,将所有LUN确定为目标LUN,休息日的正午和零时,将所有LUN确定为目标LUN。可以参照存储设备的实际应用环境和LUN的业务进行设置,本申请不做具体的限定。
在示出的另一种实施方式中,用户可以在存储设备上预设存储量阈值,以由存储设备基于该存储量阈值选择目标LUN。存储设备可以检测本地搭载的若干LUN的数据存储量,如果任一LUN的数据存储量达到预设的存储量阈值,将其确定为目标LUN。
比如:若每个LUN的存储空间为20G,可以将存储量阈值设为5G,将数据存储量达到5G的LUN确定为目标LUN。
在本申请实施例中,存储设备确定出目标LUN,可以计算上述目标LUN的有效重删率。
具体地,存储设备可以获取上述目标LUN的数据地址集;其中,上述数据地址集包括上述目标LUN中的数据块的逻辑地址。
如果上述目标LUN存储的数据量非常大,则根据上述目标LUN内的所有数据块计算有效重删率的计算量会很大,消耗系统资源。因此,存储设备可以基于预设的抽样策略,对上述目标LUN中的数据块进行抽样来获取上述目标LUN的数据地址集。
在示出的一种实施方式中,存储设备可以对上述目标LUN中新增的数据块进行抽样,比如,根据写入上述目标LUN的时间顺序,抽取预设数量的数据块。
存储设备可以生成数据地址集,其中,该数据地址集包括抽样结果中的数据块的逻辑地址。
在示出的另一种实施方式中,存储设备可以对上述目标LUN中发生变化的数据块进行抽样,比如,根据上述逻辑地址映射表中散列值的变化情况,抽取预设数量的数据块。
存储设备可以生成数据地址集,其中,该数据地址集包括抽样结果中的数据块的逻辑地址。
当然,存储设备还可以基于其它抽样策略获取上述目标LUN的数据地址集,上述抽样策略可以根据实际应用环境进行设置。存储设备通过抽样的方式获取上述目标LUN的数据地址集,可以降低计算有效重删率的计算量,节省系统资源。
存储设备获得上述目标LUN的数据地址集后,可以遍历上述数据地址集中的逻辑地址,在上述逻辑地址映射表中查找与上述逻辑地址对应的预设标识位。
如果查找到的预设标识位的取值为上述第一预设值,则可以将重复的数据块的数量加一。
如果上述数据地址集中的逻辑地址遍历完成,存储设备可以将上述重复的数据块的数量除以上述数据地址集的数据块总数,获得上述目标LUN的有效重删率。
为更直观地说明计算有效重删率的过程,请参见图8,为本申请示出的一种计算有效重删率的方法的流程图,存储设备可以基于该流程图对目标LUN计算有效重删率。
存储设备计算得到上述目标LUN的有效重删率后,可以比较上述目标LUN的有效重删率和预设的有效重删率阈值,确定上述有效重删率是否小于上述有效重删率阈值。
一方面,如果上述有效重删率不小于上述有效重删率阈值,则说明上述目标LUN写入的重复数据较多,上述目标LUN后续还会写入较多的重复数据,因此,需要继续对上述目标LUN的进行重删,避免重复数据占据存储系统的物理存储空间。
另一方面,如果上述有效重删率小于上述有效重删率阈值,则说明上述目标LUN写入的重复数据较少,上述目标LUN面向的业务与其它LUN面向的业务差异较大,且上述目标LUN面向的业务产生的重复数据较少。因此,后续写入上述目标LUN的数据块与写入其它LUN的数据块仍会存在差异,且写入上述目标LUN的数据块之间存在的重复数据较少。在这种情况下,可以禁用上述目标LUN的重删功能。取消了对后续写入上述目标LUN的数据块的重删处理,从而减少了系统资源的消耗。
综上所述,本申请技术方案提供了灵活的重删检测策略,用以对参与数据重删的LUN进行管理,从而确定计算有效重删率的目标LUN;并可以通过抽样获取上述目标LUN的数据地址集的方式,提高了计算有效重删率的速率;
此外,通过设置有效重删率阈值,筛选出有效重删率低的LUN来禁用重删功能,在一定的系统资源消耗下实现最佳的重删效果,从而提升了全局重删的整体效率,减少了重删导致的系统资源的消耗;
相比现有选择目标LUN禁用重删功能的方案,避免了因禁用自身重删率低、而与其它LUN存在较多重复数据的LUN的重删功能,导致物理存储空间浪费的问题。
与前述数据重删的管理方法的实施例相对应,本申请还提供了数据重删的管理装置的实施例。
参见图9,为本申请示出的一种数据重删的管理装置的实施例框图:
如图9所示,该数据重删的管理装置90包括:
确定单元910,用于基于预设的重删检测策略,确定目标LUN。
计算单元920,用于计算所述目标LUN的有效重删率,比较所述目标LUN的有效重删率和预设的有效重删率阈值;其中,所述有效重删率为所述目标LUN中与全局范围内重复的数据块的数量和所述目标LUN数据块总量的比值。
禁用单元930,用于如果所述目标LUN的有效重删率小于所述有效重删率阈值,禁用所述目标LUN的重删功能。
在本例中,所述确定单元910,进一步用于:
基于预设的周期,将所述若干LUN依次确定为目标LUN。
在本例中,所述确定单元910,进一步用于:
检测所述若干LUN的数据存储量;
如果任一LUN的数据存储量达到预设的存储量阈值,将其确定为目标LUN。
在本例中,所述计算单元920,进一步用于:
获取所述目标LUN的数据地址集;其中,所述数据地址集包括所述目标LUN中的数据块的逻辑地址;
遍历所述数据地址集中的逻辑地址,在预设的逻辑地址映射表中查找与所述逻辑地址对应的预设标识位;其中,所述逻辑地址映射表包括所述目标LUN中的数据块的逻辑地址和所述预设标识位的映射关系,重复的数据块的逻辑地址对应的所述预设标识位的取值为第一预设值;
如果查找到的预设标识位的取值为第一预设值,重复的数据块的数量加一;
如果所述数据地址集中的逻辑地址遍历完成,将所述重复的数据块的数量除以所述数据地址集的数据块总数,获得所述有效重删率。
在本例中,所述计算单元920,进一步用于:
基于预设的抽样策略,对所述目标LUN中的数据块进行抽样;
生成所述数据地址集;所述数据地址集包括抽样结果中的数据块的逻辑地址。
在本例中,所述逻辑地址映射表中的所述预设标识位在数据块写入所述目标LUN的重删过程中填写。
本申请数据重删的管理装置的实施例可以应用在存储设备上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在存储设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图10所示,为本申请数据重删的管理装置所在存储设备的一种硬件结构图,除了图10所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的存储设备通常根据该数据重删的管理装置的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (12)

1.一种数据重删的管理方法,应用于存储设备,所述存储设备搭载了若干LUN,其特征在于,包括:
基于预设的重删检测策略,确定目标LUN;
计算所述目标LUN的有效重删率,比较所述目标LUN的有效重删率和预设的有效重删率阈值;其中,所述有效重删率为所述目标LUN中与全局范围内重复的数据块的数量和所述目标LUN数据块总量的比值;
如果所述目标LUN的有效重删率小于所述有效重删率阈值,禁用所述目标LUN的重删功能。
2.根据权利要求1所述的方法,其特征在于,所述基于预设的重删检测策略,确定目标LUN,包括:
基于预设的周期,将所述若干LUN依次确定为目标LUN。
3.根据权利要求1所述的方法,其特征在于,所述基于预设的重删检测策略,确定目标LUN,包括:
检测所述若干LUN的数据存储量;
如果任一LUN的数据存储量达到预设的存储量阈值,将其确定为目标LUN。
4.根据权利要求1所述的方法,其特征在于,所述计算所述目标LUN的有效重删率,包括:
获取所述目标LUN的数据地址集;其中,所述数据地址集包括所述目标LUN中的数据块的逻辑地址;
遍历所述数据地址集中的逻辑地址,在预设的逻辑地址映射表中查找与所述逻辑地址对应的预设标识位;其中,所述逻辑地址映射表包括所述目标LUN中的数据块的逻辑地址和所述预设标识位的映射关系,重复的数据块的逻辑地址对应的所述预设标识位的取值为第一预设值;
如果查找到的预设标识位的取值为第一预设值,重复的数据块的数量加一;
如果所述数据地址集中的逻辑地址遍历完成,将所述重复的数据块的数量除以所述数据地址集的数据块总数,获得所述有效重删率。
5.根据权利要求4所述的方法,其特征在于,所述获取所述目标LUN的数据地址集,包括:
基于预设的抽样策略,对所述目标LUN中的数据块进行抽样;
生成所述数据地址集;所述数据地址集包括抽样结果中的数据块的逻辑地址。
6.根据权利要求4所述的方法,其特征在于,所述逻辑地址映射表中的所述预设标识位在数据块写入所述目标LUN的重删过程中填写。
7.一种数据重删的管理装置,应用于存储设备,所述存储设备搭载了若干LUN,其特征在于,包括:
确定单元,用于基于预设的重删检测策略,确定目标LUN;
计算单元,用于计算所述目标LUN的有效重删率,比较所述目标LUN的有效重删率和预设的有效重删率阈值;其中,所述有效重删率为所述目标LUN中与全局范围内重复的数据块的数量和所述目标LUN数据块总量的比值;
禁用单元,用于如果所述目标LUN的有效重删率小于所述有效重删率阈值,禁用所述目标LUN的重删功能。
8.根据权利要求7所述的装置,其特征在于,所述确定单元,进一步用于:
基于预设的周期,将所述若干LUN依次确定为目标LUN。
9.根据权利要求7所述的装置,其特征在于,所述确定单元,进一步用于:
检测所述若干LUN的数据存储量;
如果任一LUN的数据存储量达到预设的存储量阈值,将其确定为目标LUN。
10.根据权利要求7所述的装置,其特征在于,所述计算单元,进一步用于:
获取所述目标LUN的数据地址集;其中,所述数据地址集包括所述目标LUN中的数据块的逻辑地址;
遍历所述数据地址集中的逻辑地址,在预设的逻辑地址映射表中查找与所述逻辑地址对应的预设标识位;其中,所述逻辑地址映射表包括所述目标LUN中的数据块的逻辑地址和所述预设标识位的映射关系,重复的数据块的逻辑地址对应的所述预设标识位的取值为第一预设值;
如果查找到的预设标识位的取值为第一预设值,重复的数据块的数量加一;
如果所述数据地址集中的逻辑地址遍历完成,将所述重复的数据块的数量除以所述数据地址集的数据块总数,获得所述有效重删率。
11.根据权利要求10所述的装置,其特征在于,所述计算单元,进一步用于:
基于预设的抽样策略,对所述目标LUN中的数据块进行抽样;
生成所述数据地址集;所述数据地址集包括抽样结果中的数据块的逻辑地址。
12.根据权利要求10所述的装置,其特征在于,所述逻辑地址映射表中的所述预设标识位在数据块写入所述目标LUN的重删过程中填写。
CN201710854936.4A 2017-09-20 2017-09-20 一种数据重删的管理方法及装置 Active CN107632786B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710854936.4A CN107632786B (zh) 2017-09-20 2017-09-20 一种数据重删的管理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710854936.4A CN107632786B (zh) 2017-09-20 2017-09-20 一种数据重删的管理方法及装置

Publications (2)

Publication Number Publication Date
CN107632786A CN107632786A (zh) 2018-01-26
CN107632786B true CN107632786B (zh) 2020-04-07

Family

ID=61102289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710854936.4A Active CN107632786B (zh) 2017-09-20 2017-09-20 一种数据重删的管理方法及装置

Country Status (1)

Country Link
CN (1) CN107632786B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113050891B (zh) * 2021-03-26 2022-02-25 杭州宏杉科技股份有限公司 重删数据保护方法及装置
WO2023279833A1 (zh) * 2021-07-08 2023-01-12 华为技术有限公司 一种数据处理方法及装置
CN113568584B (zh) * 2021-07-30 2023-04-21 杭州宏杉科技股份有限公司 重删数据保护方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103858125A (zh) * 2013-12-17 2014-06-11 华为技术有限公司 重复数据处理方法、装置及存储控制器和存储节点
CN104239518A (zh) * 2014-09-17 2014-12-24 华为技术有限公司 重复数据删除方法和装置
CN104272263A (zh) * 2012-02-29 2015-01-07 网络装置公司 用于执行去重复操作的碎片控制
CN105824881A (zh) * 2016-03-10 2016-08-03 中国人民解放军国防科学技术大学 一种基于负载均衡的重复数据删除数据放置方法器
CN106527973A (zh) * 2016-10-10 2017-03-22 杭州宏杉科技股份有限公司 一种数据重复删除的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10387266B2 (en) * 2015-12-23 2019-08-20 Commvault Systems, Inc. Application-level live synchronization across computing platforms including synchronizing co-resident applications to disparate standby destinations and selectively synchronizing some applications and not others

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104272263A (zh) * 2012-02-29 2015-01-07 网络装置公司 用于执行去重复操作的碎片控制
CN103858125A (zh) * 2013-12-17 2014-06-11 华为技术有限公司 重复数据处理方法、装置及存储控制器和存储节点
CN104239518A (zh) * 2014-09-17 2014-12-24 华为技术有限公司 重复数据删除方法和装置
CN105824881A (zh) * 2016-03-10 2016-08-03 中国人民解放军国防科学技术大学 一种基于负载均衡的重复数据删除数据放置方法器
CN106527973A (zh) * 2016-10-10 2017-03-22 杭州宏杉科技股份有限公司 一种数据重复删除的方法及装置

Also Published As

Publication number Publication date
CN107632786A (zh) 2018-01-26

Similar Documents

Publication Publication Date Title
US10089191B2 (en) Selectively persisting application program data from system memory to non-volatile data storage
US10387069B2 (en) Systems and methods for data migration in a clustered file system
US9317519B2 (en) Storage system for eliminating duplicated data
US8799601B1 (en) Techniques for managing deduplication based on recently written extents
US8898120B1 (en) Systems and methods for distributed data deduplication
US8856484B2 (en) Mass storage system and methods of controlling resources thereof
US8301670B2 (en) Managing snapshot storage pools
US9058212B2 (en) Combining memory pages having identical content
JP2013109756A (ja) データ処理システムのメモリ使用状況を追跡する方法
US10489289B1 (en) Physical media aware spacially coupled journaling and trim
CN105468642A (zh) 数据的存储方法及装置
CN107632786B (zh) 一种数据重删的管理方法及装置
CN109150642B (zh) 应用内存错误检测方法、检测装置及存储介质
CN107704466B (zh) 数据储存系统
CN111522502A (zh) 数据去重方法、装置、电子设备及计算机可读存储介质
US10437784B2 (en) Method and system for endurance enhancing, deferred deduplication with hardware-hash-enabled storage device
US8965855B1 (en) Systems and methods for hotspot mitigation in object-based file systems
US10902014B1 (en) Reducing network traffic when replicating memory data across hosts
CN109947712A (zh) 计算框架内自动合并文件的方法、系统、设备及介质
US9852139B1 (en) Directory partitioning with concurrent directory access
US20230325081A1 (en) Garbage collection and bin synchronization for distributed storage architecture
EP3264254B1 (en) System and method for a simulation of a block storage system on an object storage system
US9111015B1 (en) System and method for generating a point-in-time copy of a subset of a collectively-managed set of data items
CN110209351B (zh) 分布式存储数据处理方法和装置
US11269517B2 (en) Cost-aware storage allocation of deduplicated objects

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant