CN102902762A - 一种删除重复数据的方法、装置和系统 - Google Patents

一种删除重复数据的方法、装置和系统 Download PDF

Info

Publication number
CN102902762A
CN102902762A CN2012103612072A CN201210361207A CN102902762A CN 102902762 A CN102902762 A CN 102902762A CN 2012103612072 A CN2012103612072 A CN 2012103612072A CN 201210361207 A CN201210361207 A CN 201210361207A CN 102902762 A CN102902762 A CN 102902762A
Authority
CN
China
Prior art keywords
data
metadata
already present
storage address
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012103612072A
Other languages
English (en)
Other versions
CN102902762B (zh
Inventor
郑锡涛
张辉
战宏亮
韩明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Huawei Technology Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201210361207.2A priority Critical patent/CN102902762B/zh
Publication of CN102902762A publication Critical patent/CN102902762A/zh
Application granted granted Critical
Publication of CN102902762B publication Critical patent/CN102902762B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

本发明的实施例公开一种删除重复数据的方法、装置和系统,涉及计算机领域,解决现有技术中数据可靠性低,垃圾数据多,系统开销大的问题。一种删除重复数据的方法,包括:通过用户输入数据和需要存储的副本数得到哈希值,进而得到与输入数据对应的数据信息和对应的删除列表,将用户输入数据的文件名加入所述删除列表。然后将输入数据对应的元数据记录的输入数据的存储地址变更为已存储数据对应的元数据记录的已存储数据的存储地址,最后删除所述输入数据。本发明主要应用于计算机系统中。

Description

一种删除重复数据的方法、装置和系统
技术领域
本发明涉及计算机领域,特别涉及一种删除重复数据的方法、装置和系统。
背景技术
在现有技术中,提高海量信息存储率的重要方法是删除系统中存在的重复数据。系统中存在的重复数据是指存储在系统中的完全相同的两份或两份以上数据。
在删除系统中存在的重复数据前,首先获取上传数据的数据信息,根据数据信息判断系统中是否已经存在上传数据,当已经存在上传数据时,删除上传数据。
上传数据的数据信息是对上传数据进行哈希计算所得的值。哈希计算是计算机领域中的一种散列算法,用于把任意长度的二进制值映射为固定长度的较小二进制值。在获得上传数据的数据信息后,将数据信息与系统中保存的数据信息进行对比,若数据信息一致,则表示系统中存在与上传数据相同的数据,需要删除上传数据。若数据信息不一致,则表示系统中不存在与上传数据相同的数据,直接把上传数据存储在系统中。所述系统中保存的数据信息是指对存储在数据系统中的数据进行哈希计算所得的值。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
1、由于需要删除重复数据,因此系统中不能存储两份以上的相同数据,对于重要的数据不能进行备份操作,降低了数据可靠性;
2、当出现异常情况,如停电等,系统中产生垃圾数据,降低存储率;所述垃圾数据是系统进行删除重复数据的过程中,系统已检测出上传数据为重复数据,需要进行删除,但由于停电等意外情况的发生,导致未更新上传数据元数据和删除上传数据,使系统中存在一份不需要的数据;
3、用户上传数据时,若在线进行删除重复数据的操作,影响用户体验。若上传后进行删除数据的操作,需要对全系统进行扫描,增加系统开销。
发明内容
本发明的实施例提供一种删除重复数据的方法、装置和系统,解决系统中对于重要的数据不能进行备份操作,垃圾数据不能删除的技术问题。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,提供一种删除重复数据的方法,包括:
获取用户的输入数据,以及用户输入的副本数。
对所述输入数据进行哈希计算,得到哈希值。
建立所述输入数据对应的数据信息,所述数据信息包括所述哈希值,所述副本数。
在第一方面的第一种可能的实现方式中,判断是否存在与所述数据信息相同的已存储数据信息;所述已存储数据信息对应唯一的已存储数据。
当存在与所述数据信息相同的已存储数据信息时,删除所述输入数据。
第二方面,提供一种删除重复数据的装置,包括:
输入数据获取单元,用于获取用户的输入数据,以及用户输入的副本数。
第一哈希单元,用于对所述输入数据进行哈希计算,得到哈希值。
数据信息建立单元,用于建立所述输入数据对应的数据信息,所述数据信息包括所述哈希值,所述副本数。
在第二方面的第一种可能的实现方式中,第一判断单元,用于判断是否存在与所述数据信息相同的已存储数据信息;所述已存储数据信息对应唯一的已存储数据。
输入数据删除单元,用于当存在与所述数据信息相同的已存储数据信息时,删除所述输入数据。
第三方面,提供一种计算机系统,包括:总线,与所述总线相连的处理器以及与所述总线相连的存储器;其中所述处理器包括上述提及的装置。
本发明实施例提供一种删除重复数据的方法、装置和系统,首先获取用户的输入数据,以及用户输入的副本数。对所述输入数据进行哈希计算,得到哈希值。建立所述输入数据对应的数据信息,判断是否存在与所述数据信息相同的已存储数据信息。当存在与所述数据信息相同的已存储数据信息时,删除所述输入数据。通过上述删除重复数据的方法,记录备份数,删除垃圾数据,对系统中重要的数据进行备份,提高系统存储空间存储率,优化用户体验,加快运行效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1中删除重复数据的流程框图;
图2为本发明实施例2中删除重复数据的流程框图;
图3为本发明实施例2中已存储数据对应删除列表的框图;
图4为本发明实施例2中另一种删除重复数据的流程框图;
图5为本发明实施例2中第三种删除重复数据的流程框图;
图6为本发明实施例3中一种删除重复数据装置的框图;
图7为本发明实施例3中另一种删除重复数据装置的框图;
图8为本发明实施例3中第三种删除重复数据装置的框图;
图9为本发明实施例3中元数据更新单元的框图;
图10为本发明实施例3中计算机系统的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
本发明的一个实施例提供了一种删除重复数据的方法,如图1所示,该方法包括如下步骤:
101、获取用户的输入数据,以及用户输入的副本数。
用户将输入数据以及与该输入数据的副本数一同输入计算机中。
102、对所述输入数据进行哈希计算,得到哈希值。
本发明实施例中提及的哈希计算是计算机领域中的一种散列算法,用于把任意长度的二进制值映射为固定长度的较小二进制值。
103、建立所述输入数据对应的数据信息,所述数据信息包括所述哈希值,所述副本数。
104、判断是否存在与所述数据信息相同的已存储数据信息。
所述已存储数据信息对应唯一的已存储数据。
在计算机中,已经存储了大量的数据,每一份已存储数据对相应的建立了唯一的已存储数据信息,每份已存储数据信息中包括对应的已存储数据的哈希值和副本数。
105、当存在与所述数据信息相同的已存储数据信息时,删除所述输入数据。
当存在与所述数据信息相同的已存储数据信息时,表示在步骤101中获取的用户的输入数据已经存在,不需要再进行存储,此时对该输入数据进行删除。
本发明的一个实施例提供一种删除重复数据的方法,通过用户输入数据和需要存储的副本数得到哈希值,进而得到与输入数据对应的数据信息。当存在与所述数据信息相同的已存储数据信息时,删除所述输入数据。通过上述方法,克服对重要数据不能备份的问题,提高数据的可靠性。
实施例2:
本发明的一个实施例提供一种删除重复数据的方法,如图2所示,包括:
201、获取用户的输入数据,以及用户输入的副本数。
202、对所述输入数据进行哈希计算,得到哈希值。
所述哈希计算是计算机领域中的一种散列算法,用于把任意长度的二进制值映射为固定长度的较小二进制值。
203、建立所述输入数据对应的数据信息,所述数据信息包括所述哈希值,所述副本数。
204、判断是否存在与所述数据信息相同的已存储数据信息。
所述已存储数据信息对应唯一的已存储数据。
在计算机中,已经存储了大量的数据,每一份已存储数据相应的建立了唯一的已存储数据信息,每份已存储数据信息中包括对应的已存储数据的哈希值和副本数。步骤204判断是否存在与所述数据信息相同的已存储数据信息,即判断是否存在与用户的输入数据的数据信息所包括的哈希值和副本数分别相同的已存储数据信息。如果两个数据信息中的哈希值和副本数分别相同,可以判定这两个数据信息所对应的两个数据是相同的数据。
205、当存在与所述数据信息相同的已存储数据信息时,获取所述已存储数据信息对应的状态信息项。
所述已存储数据信息对应的状态信息项记录有所述已存储数据的存储地址。
206、根据所述已存储数据的存储地址,获取对应的删除列表。
所述删除列表记录有被执行过删除动作的所述已存储数据的文件名。
207、将所述用户输入的数据的文件名加入所述删除列表。
举例来说,如图3所示,已存储数据3001对应有已存储数据信息301,301具有对应的状态信息项302,302记录有3001在硬盘上的存储地址303(具体的,303可以是3001存储的起始地址)。此外,系统还对应存储地址303建立有对应的删除列表304。假设在304中记录了3041,3042,3043共三项,这三项分别是三个不同的文件名,且对应相同的文件内容,即3001。
通过步骤205至207,将用户的输入数据的文件名加入到对应的删除列表中。该删除列表对应已在系统中存储的已存储数据,并且该已存储数据与用户的输入数据是相同的。
208、将所述输入数据对应的元数据记录的所述输入数据的存储地址变更为所述已存储数据对应的元数据记录的所述已存储数据的存储地址。
所述元数据记录有与元数据对应的数据的存储地址、数据的副本数、数据的文件名。
209、删除所述输入数据。
本发明的一个实施例提供一种删除重复数据的方法,通过用户输入数据和需要存储的副本数得到哈希值,进而得到与输入数据对应的数据信息。当存在与所述数据信息相同的已存储数据信息时,获取对应的删除列表并将所述用户输入的数据的文件名加入所述删除列表。然后将所述输入数据对应的元数据记录的所述输入数据的存储地址变更为所述已存储数据对应的元数据记录的所述已存储数据的存储地址,最后删除所述输入数据。通过上述方法,克服对重要数据不能备份的问题,方便对执行上述步骤的数据进行管理。
本发明的一个实施例还提供一种删除重复数据的方法,如图4所示,该方法包括如下步骤:
401获取系统中已存在的元数据。
所述系统中已存在的元数据记录有所述系统中已存在的元数据对应数据的存储地址、所述系统中已存在的元数据对应数据的副本数、所述系统中已存在的元数据对应数据的文件名。
402、对所述系统中已存在的元数据对应数据的存储地址中的数据进行哈希计算,得到第二哈希值。
403、构造第二数据信息,所述第二数据信息包括所述第二哈希值,所述系统中已存在的元数据对应数据的副本数。
404、判断是否存在与所述第二数据信息相同的在系统中已存在的第三数据信息。
当存在第三数据信息时,执行步骤405。
405、获取所述第三数据信息对应的第三状态信息项。
所述第三状态信息项记录有所述第三数据信息对应的数据的存储地址。
406、根据所述第三数据信息对应的数据的存储地址,获取对应的第三删除列表。
所述第三删除列表记录有被执行过删除动作的第三数据信息对应的数据的文件名。
407、判断是否在所述第三删除列表存在所述系统中已存在的元数据对应数据的文件名。
当不存在所述当前元数据记录的文件名时,执行步骤408。
408、将所述系统中已存在的元数据对应数据的存储地址更新为所述第三数据信息对应的数据的存储地址。
409、删除所述系统中已存在的元数据对应数据的存储地址中的数据。
需要说明的是,对元数据的获取动作,是通过对所有元数据进行遍历来执行的。即对于每个元数据,都会执行上述步骤401至409的流程,当然,如果在执行过程中不能满足步骤404或407的判断条件,则终止对当前元数据的后续步骤。
本发明的一个实施例提供一种删除重复数据的方法,通过当前元数据获得当前数据进而得到第二哈希值,然后构造第二数据信息,当在系统中存在与所述第二数据信息相同的第三数据信息时,获得第三数据信息对应的第三删除列表。若所述第三删除列表不存在当前元数据记录的文件名,则将所述当前元数据记录的当前数据的存储地址更新为所述第三数据信息对应的数据的存储地址并删除当前数据的存储地址中的所述当前数据。通过上述方法,删除系统中的垃圾数据,提高系统存储空间存储率。
进一步的,本发明的一个实施例还提供一种删除重复数据的方法,如图5所示,该方法包括如下步骤:
501、获取用户的输入数据,以及用户输入的副本数。
502、对所述输入数据进行哈希计算,得到哈希值。
503、建立所述输入数据对应的数据信息,所述数据信息包括所述哈希值,所述副本数。
504、判断是否存在与所述数据信息相同的已存储数据信息;所述已存储数据信息对应唯一的已存储数据。
505、当存在与所述数据信息相同的已存储数据信息时,获取所述已存储数据信息对应的状态信息项;所述已存储数据信息对应的状态信息项记录有所述已存储数据的存储地址。
506、根据所述已存储数据的存储地址,获取对应的删除列表;所述删除列表记录有被执行过删除动作的所述已存储数据的文件名。
507、将所述用户输入的数据的文件名加入所述删除列表。
508、经过预设定的时间段。
509、将所述输入数据对应的元数据记录的所述输入数据的存储地址变更为所述已存储数据对应的元数据记录的所述已存储数据的存储地址。
所述元数据记录有与元数据对应的数据的存储地址、数据的副本数、数据的文件名。
510、删除所述输入数据。
本发明的一个实施例提供一种删除重复数据的方法,通过用户输入数据和需要存储的副本数得到哈希值,进而得到与输入数据对应的数据信息。当存在与所述数据信息相同的已存储数据信息时,获取对应的删除列表并将所述用户输入的数据的文件名加入所述删除列表。经过预设定的时间段后,将所述输入数据对应的元数据记录的所述输入数据的存储地址变更为所述已存储数据对应的元数据记录的所述已存储数据的存储地址,最后删除所述输入数据。通过上述方法,克服了用户上传数据时进行在线进行删除重复数据的操作,影响用户体验和上传后进行删除数据的操作,需要对全系统进行扫描,增加系统开销的问题,优化了用户体验,加快运行效率。
实施例3
本发明的一个实施例提供了一种删除重复数据的装置,如图6所示,该装置包括:输入数据获取单元61,第一哈希单元62,数据信息建立单元63,第一判断单元64,输入数据删除单元65。其中:
输入数据获取单元61用于获取用户的输入数据,以及用户输入的副本数。
第一哈希单元62用于对所述输入数据进行哈希计算,得到哈希值。
数据信息建立单元63用于建立所述输入数据对应的数据信息,所述数据信息包括所述哈希值,所述副本数。
第一判断单元64用于判断是否存在与所述数据信息相同的已存储数据信息;所述已存储数据信息对应唯一的已存储数据。
输入数据删除单元65用于删除所述输入数据。
进一步的,如图7所示,所述装置还包括:
状态信息项获取单元66,用于当存在与所述数据信息相同的已存储数据信息时,获取所述已存储数据信息对应的状态信息项;所述已存储数据信息对应的状态信息项记录有所述已存储数据的存储地址。
删除列表获取单元67,用于根据所述已存储数据的存储地址,获取对应的删除列表;所述删除列表记录有被执行过删除动作的所述已存储数据的文件名。
文件名添加单元68,用于将所述用户输入的数据的文件名加入所述删除列表。
元数据更新单元69,用于将所述输入数据对应的元数据记录的所述输入数据的存储地址变更为所述已存储数据对应的元数据记录的所述已存储数据的存储地址;所述元数据记录有与元数据对应的数据的存储地址、数据的副本数、数据的文件名。
进一步的,如图8所示,所述装置还包括:元数据获取单元610,第二哈希单元611,第二数据信息建立单元612,第二判断单元613,第三状态信息项获取单元614,第三删除列表获取单元615,第三判断单元616,存储地址更新单元617,当前数据删除单元618。其中:
元数据获取单元610用于获取获取系统中已存在的元数据。
第二哈希单元611用于对所述系统中已存在的元数据对应数据的存储地址中的数据进行哈希计算,得到第二哈希值。
第二数据信息建立单元612用于构造第二数据信息。
第二判断单元613用于判断是否存在与所述第二数据信息相同的第三数据信息。
第三状态信息项获取单元614用于当存在与所述第二数据信息相同的第三数据信息时,获取所述第三数据信息对应的第三状态信息项。
第三删除列表获取单元615用于根据所述第三数据信息对应的数据的存储地址,获取对应的第三删除列表;所述第三删除列表记录有被执行过删除动作的第三数据信息对应的数据的文件名。
第三判断单元616用于判断是否在所述第三删除列表存在所述系统中已存在的元数据对应数据的文件名。
存储地址更新单元617用于当所述第三删除列表不存在所述系统中已存在的元数据对应数据的文件名时,将所述系统中已存在的元数据对应数据的存储地址更新为所述第三数据信息对应的数据的存储地址;。
当前数据删除单元618用于删除所述系统中已存在的元数据对应数据的存储地址中的数据。
通过当前元数据获得当前数据进而得到第二哈希值,然后构造第二数据信息,当在系统中存在与所述第二数据信息相同的第三数据信息时,获得第三数据信息对应的第三删除列表。若所述第三删除列表不存在当前元数据记录的文件名,则将所述当前元数据记录的当前数据的存储地址更新为所述第三数据信息对应的数据的存储地址并删除当前数据的存储地址中的所述当前数据。通过上述装置,删除系统中的垃圾数据,提高系统存储空间存储率。
进一步的,如图9所示,元数据更新单元69包括元数据更新子单元691,用于在将所述用户输入的数据的文件名加入所述删除列表后,经过预设定的时间段后,将所述输入数据对应的元数据记录的所述输入数据的存储地址变更为所述已存储数据对应的元数据记录的所述已存储数据的存储地址。
本发明的一个实施例提供一种删除重复数据的装置,通过用户输入数据和需要存储的副本数得到哈希值,进而得到与输入数据对应的数据信息。当存在与所述数据信息相同的已存储数据信息时,删除所述输入数据。通过上述装置,记录备份数,增强数据可靠性。进一步的,存在与所述数据信息相同的已存储数据信息时,获取对应的删除列表并将所述用户输入的数据的文件名加入所述删除列表。经过预设定的时间段后,将所述输入数据对应的元数据记录的所述输入数据的存储地址变更为所述已存储数据对应的元数据记录的所述已存储数据的存储地址,最后删除所述输入数据,这样方便对已经执行过删除操作的数据的管理。此外,通过当前元数据获得当前数据进而得到第二哈希值,然后构造第二数据信息,当在系统中存在与所述第二数据信息相同的第三数据信息时,获得第三数据信息对应的第三删除列表。若所述第三删除列表不存在当前元数据记录的文件名,则将所述当前元数据记录的当前数据的存储地址更新为所述第三数据信息对应的数据的存储地址并删除当前数据的存储地址中的所述当前数据。通过上述方法,删除系统中的垃圾数据,提高系统存储空间存储率。再者,所述用户输入的数据的文件名加入所述删除列表后,经过预设定的时间段,将所述输入数据对应的元数据记录的所述输入数据的存储地址变更为所述已存储数据对应的元数据记录的所述已存储数据的存储地址,克服了用户上传数据时进行在线进行删除重复数据的操作,影响用户体验和上传后进行删除数据的操作,需要对全系统进行扫描,增加系统开销的问题,优化了用户体验,加快运行效率。
本发明的一个实施例还提供了一种计算机系统,如图10所示,包括:总线701,处理器702,存储器703。其中,处理器702中包括上述提及的任意一种删除重复数据的装置。
本发明的实施例提供一种计算机系统,通过用户输入数据和需要存储的副本数得到哈希值,进而得到与输入数据对应的数据信息。当存在与所述数据信息相同的已存储数据信息时,获取对应的删除列表并将所述用户输入的数据的文件名加入所述删除列表。经过预设定的时间段后,将所述输入数据对应的元数据记录的所述输入数据的存储地址变更为所述已存储数据对应的元数据记录的所述已存储数据的存储地址,最后删除所述输入数据。通过上述装置,克服了用户上传数据时进行在线进行删除重复数据的操作,影响用户体验和上传后进行删除数据的操作,需要对全系统进行扫描,增加系统开销的问题,优化了用户体验,加快运行效率。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (11)

1.一种删除重复数据的方法,其特征在于,包括:
获取用户的输入数据,以及用户输入的副本数;
对所述输入数据进行哈希计算,得到哈希值;
建立所述输入数据对应的数据信息,所述数据信息包括所述哈希值,所述副本数;
判断是否存在与所述数据信息相同的已存储数据信息;所述已存储数据信息对应唯一的已存储数据;
当存在与所述数据信息相同的已存储数据信息时,删除所述输入数据。
2.根据权利要求1所述的方法,其特征在于,还包括:
当存在与所述数据信息相同的已存储数据信息时,获取所述已存储数据信息对应的状态信息项;所述已存储数据信息对应的状态信息项记录有所述已存储数据的存储地址;
根据所述已存储数据的存储地址,获取对应的删除列表;所述删除列表记录有被执行过删除动作的所述已存储数据的文件名;
将所述用户输入的数据的文件名加入所述删除列表。
3.根据权利要求1所述的方法,其特征在于,系统按照预设的周期遍历系统中已存在的元数据,包括:
获取系统中已存在的元数据;所述系统中已存在的元数据记录有所述系统中已存在的元数据对应数据的存储地址、所述系统中已存在的元数据对应数据的副本数、所述系统中已存在的元数据对应数据的文件名;
对所述系统中已存在的元数据对应数据的存储地址中的数据进行哈希计算,得到第二哈希值;
构造第二数据信息,所述第二数据信息包括所述第二哈希值,所述系统中已存在的元数据对应数据的副本数;
判断是否存在与所述第二数据信息相同的在系统中已存在的第三数据信息;
若存在,获取所述第三数据信息对应的第三状态信息项;所述第三状态信息项记录有所述第三数据信息对应的数据的存储地址;
根据所述第三数据信息对应的数据的存储地址,获取对应的第三删除列表;所述第三删除列表记录有被执行过删除动作的第三数据信息对应的数据的文件名;
判断是否在所述第三删除列表存在所述系统中已存在的元数据对应数据的文件名;
若否,将所述系统中已存在的元数据对应数据的存储地址更新为所述第三数据信息对应的数据的存储地址;
删除所述系统中已存在的元数据对应数据的存储地址中的数据。
4.根据权利要求1所述的方法,其特征在于,在删除所述输入数据前,还包括:
将所述输入数据对应的元数据记录的所述输入数据的存储地址变更为所述已存储数据对应的元数据记录的所述已存储数据的存储地址;所述元数据记录有与元数据对应的数据的存储地址、数据的副本数、数据的文件名。
5.根据权利要求4所述的方法,其特征在于,所述将所述输入数据对应的元数据记录的所述输入数据的存储地址变更为所述已存储数据对应的元数据记录的所述已存储数据的存储地址,包括:
在将所述用户输入的数据的文件名加入所述删除列表后,经过预设定的时间段后,将所述输入数据对应的元数据记录的所述输入数据的存储地址变更为所述已存储数据对应的元数据记录的所述已存储数据的存储地址。
6.一种删除数据重复数据的装置,其特征在于,包括:
输入数据获取单元,用于获取用户的输入数据,以及用户输入的副本数;
第一哈希单元,用于对所述输入数据进行哈希计算,得到哈希值;
数据信息建立单元,用于建立所述输入数据对应的数据信息,所述数据信息包括所述哈希值,所述副本数;
第一判断单元,用于判断是否存在与所述数据信息相同的已存储数据信息;所述已存储数据信息对应唯一的已存储数据;
输入数据删除单元,用于当存在与所述数据信息相同的已存储数据信息时,删除所述输入数据。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
状态信息项获取单元,用于当存在与所述数据信息相同的已存储数据信息时,获取所述已存储数据信息对应的状态信息项;所述已存储数据信息对应的状态信息项记录有所述已存储数据的存储地址;
删除列表获取单元,用于根据所述已存储数据的存储地址,获取对应的删除列表;所述删除列表记录有被执行过删除动作的所述已存储数据的文件名;
文件名添加单元,用于将所述用户输入的数据的文件名加入所述删除列表。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
元数据获取单元,用于获取系统中已存在的元数据;所述系统中已存在的元数据记录有所述系统中已存在的元数据对应数据的存储地址、所述系统中已存在的元数据对应数据的副本数、所述系统中已存在的元数据对应数据的文件名;
第二哈希单元,用于对所述系统中已存在的元数据对应数据的存储地址中的数据进行哈希计算,得到第二哈希值;
第二数据信息建立单元,构造第二数据信息,所述第二数据信息包括所述第二哈希值,所述系统中已存在的元数据对应数据的副本数;
第二判断单元,用于判断是否存在与所述第二数据信息相同的在系统中已存在的第三数据信息;
第三状态信息项获取单元,用于当存在与所述第二数据信息相同的第三数据信息时,获取所述第三数据信息对应的第三状态信息项;所述第三状态信息项记录有所述第三数据信息对应的数据的存储地址;
第三删除列表获取单元,用于根据所述第三数据信息对应的数据的存储地址,获取对应的第三删除列表;所述第三删除列表记录有被执行过删除动作的第三数据信息对应的数据的文件名;
第三判断单元,用于判断是否在所述第三删除列表存在所述系统中已存在的元数据对应数据的文件名;
存储地址更新单元,用于当在所述第三删除列表不存在所述系统中已存在的元数据对应数据的文件名时,将所述当前元数据记录的当前数据的存储地址更新为所述第三数据信息对应的数据的存储地址;
当前数据删除单元,用于删除所述系统中已存在的元数据对应数据的存储地址中的数据。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
元数据更新单元,用于在删除所述输入数据前,将所述输入数据对应的元数据记录的所述输入数据的存储地址变更为所述已存储数据对应的元数据记录的所述已存储数据的存储地址;所述元数据记录有与元数据对应的数据的存储地址、数据的副本数、数据的文件名。
10.根据权利要求9所述的装置,其特征在于,所述元数据更新单元,包括:
元数据更新子单元,用于在将所述用户输入的数据的文件名加入所述删除列表后,经过预设定的时间段后,将所述输入数据对应的元数据记录的所述输入数据的存储地址变更为所述已存储数据对应的元数据记录的所述已存储数据的存储地址。
11.一种计算机系统,其特征在于,包括:
总线,与所述总线相连的处理器以及与所述总线相连的存储器;
其中所述处理器包括权利要求6至10中任意一项所述的装置。
CN201210361207.2A 2012-09-25 2012-09-25 一种删除重复数据的方法、装置和系统 Active CN102902762B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210361207.2A CN102902762B (zh) 2012-09-25 2012-09-25 一种删除重复数据的方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210361207.2A CN102902762B (zh) 2012-09-25 2012-09-25 一种删除重复数据的方法、装置和系统

Publications (2)

Publication Number Publication Date
CN102902762A true CN102902762A (zh) 2013-01-30
CN102902762B CN102902762B (zh) 2015-08-19

Family

ID=47574994

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210361207.2A Active CN102902762B (zh) 2012-09-25 2012-09-25 一种删除重复数据的方法、装置和系统

Country Status (1)

Country Link
CN (1) CN102902762B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838871A (zh) * 2014-03-21 2014-06-04 北京广利核系统工程有限公司 一种核电站安全级dcs s-vdu过程文件的校验方法
CN104408111A (zh) * 2014-11-24 2015-03-11 浙江宇视科技有限公司 一种删除重复数据的方法及装置
CN105376285A (zh) * 2014-08-29 2016-03-02 纬创资通股份有限公司 网络储存去重方法及服务器
CN105468733A (zh) * 2015-11-23 2016-04-06 上海爱数信息技术股份有限公司 一种基于源端数据重删的卷复制方法
CN107710142A (zh) * 2015-09-30 2018-02-16 西部数据技术公司 用于数据存储装置的数据保留管理
WO2018113209A1 (zh) * 2016-12-21 2018-06-28 深圳市易特科信息技术有限公司 医疗信息化医疗文件冗余清除系统及方法
CN108880980A (zh) * 2018-04-28 2018-11-23 国家计算机网络与信息安全管理中心 基于微信群信息的数据分析系统
CN110019052A (zh) * 2017-07-26 2019-07-16 先智云端数据股份有限公司 分布式重复数据删除的方法及储存系统
CN110019053A (zh) * 2017-11-02 2019-07-16 福建天晴数码有限公司 一种Unity3D资源包冗余数据检测方法及终端
CN117271224A (zh) * 2023-11-14 2023-12-22 苏州元脑智能科技有限公司 存储系统的数据重复存储处理方法及装置、存储介质、电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009245264A (ja) * 2008-03-31 2009-10-22 Nec Corp バックアップ管理システム、方法、及び、プログラム
CN101582076A (zh) * 2009-06-24 2009-11-18 浪潮电子信息产业股份有限公司 一种基于数据库的重复数据删除方法
US20110125722A1 (en) * 2009-11-23 2011-05-26 Ocarina Networks Methods and apparatus for efficient compression and deduplication
CN102156730A (zh) * 2011-04-07 2011-08-17 江苏省电力公司 基于文件存储动态聚合的优化方法
CN102622185A (zh) * 2011-01-27 2012-08-01 北京东方广视科技股份有限公司 在多个存储单元中存储文件的方法以及存储分配方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009245264A (ja) * 2008-03-31 2009-10-22 Nec Corp バックアップ管理システム、方法、及び、プログラム
CN101582076A (zh) * 2009-06-24 2009-11-18 浪潮电子信息产业股份有限公司 一种基于数据库的重复数据删除方法
US20110125722A1 (en) * 2009-11-23 2011-05-26 Ocarina Networks Methods and apparatus for efficient compression and deduplication
CN102622185A (zh) * 2011-01-27 2012-08-01 北京东方广视科技股份有限公司 在多个存储单元中存储文件的方法以及存储分配方法
CN102156730A (zh) * 2011-04-07 2011-08-17 江苏省电力公司 基于文件存储动态聚合的优化方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838871B (zh) * 2014-03-21 2019-11-29 北京广利核系统工程有限公司 一种核电站安全级dcs s-vdu过程文件的校验方法
CN103838871A (zh) * 2014-03-21 2014-06-04 北京广利核系统工程有限公司 一种核电站安全级dcs s-vdu过程文件的校验方法
CN105376285A (zh) * 2014-08-29 2016-03-02 纬创资通股份有限公司 网络储存去重方法及服务器
CN104408111A (zh) * 2014-11-24 2015-03-11 浙江宇视科技有限公司 一种删除重复数据的方法及装置
CN104408111B (zh) * 2014-11-24 2017-12-15 浙江宇视科技有限公司 一种删除重复数据的方法及装置
CN107710142A (zh) * 2015-09-30 2018-02-16 西部数据技术公司 用于数据存储装置的数据保留管理
CN107710142B (zh) * 2015-09-30 2020-07-03 西部数据技术公司 用于数据存储装置的数据保留管理
CN105468733A (zh) * 2015-11-23 2016-04-06 上海爱数信息技术股份有限公司 一种基于源端数据重删的卷复制方法
WO2018113209A1 (zh) * 2016-12-21 2018-06-28 深圳市易特科信息技术有限公司 医疗信息化医疗文件冗余清除系统及方法
CN110019052A (zh) * 2017-07-26 2019-07-16 先智云端数据股份有限公司 分布式重复数据删除的方法及储存系统
CN110019053A (zh) * 2017-11-02 2019-07-16 福建天晴数码有限公司 一种Unity3D资源包冗余数据检测方法及终端
CN108880980A (zh) * 2018-04-28 2018-11-23 国家计算机网络与信息安全管理中心 基于微信群信息的数据分析系统
CN117271224A (zh) * 2023-11-14 2023-12-22 苏州元脑智能科技有限公司 存储系统的数据重复存储处理方法及装置、存储介质、电子设备
CN117271224B (zh) * 2023-11-14 2024-02-20 苏州元脑智能科技有限公司 存储系统的数据重复存储处理方法及装置、存储介质、电子设备

Also Published As

Publication number Publication date
CN102902762B (zh) 2015-08-19

Similar Documents

Publication Publication Date Title
CN102902762B (zh) 一种删除重复数据的方法、装置和系统
US11314701B2 (en) Resharding method and system for a distributed storage system
EP2687987A1 (en) Method, system and serving node for data backup and recovery
CN103136243B (zh) 基于云存储的文件系统去重方法及装置
CN103765373B (zh) 数据存储方法、数据存储装置和存储设备
CN104166606A (zh) 文件备份方法和主存储设备
WO2013163864A1 (zh) 数据持久化处理方法、装置及数据库系统
CN103608783A (zh) 用于备份应用的存储体系结构
CN104077380A (zh) 一种重复数据删除方法、装置及系统
EP3839716A1 (en) Data storage method and apparatus and storage system
CN103713972A (zh) 一种增量备份系统和方法
CN105320577B (zh) 一种数据备份和恢复方法、系统及装置
CN107085613B (zh) 入库文件的过滤方法和装置
CN107340971A (zh) 一种数据存储与恢复架构与方法
CN106201772A (zh) 一种基于数据中心的操作系统备份、恢复方法及装置
CN102833273A (zh) 临时故障时的数据修复方法及分布式缓存系统
CN115934414A (zh) 数据备份方法、数据恢复方法、装置、设备及存储介质
CN105068760B (zh) 数据存储方法、数据存储装置和存储设备
CN103207916A (zh) 元数据处理的方法和装置
CN108959614A (zh) 一种快照管理方法、系统、装置、设备及可读存储介质
CN103714089B (zh) 一种实现云数据库回滚的方法及系统
CN106534234B (zh) 关系链处理系统、方法和装置
TWI420333B (zh) 分散式的重複數據刪除系統及其處理方法
CN101788934A (zh) 逻辑卷管理器的数据操作方法
KR20140131094A (ko) 가비지 파일의 삭제 방법 및 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220607

Address after: No. 1899 Xiyuan Avenue, high tech Zone (West District), Chengdu, Sichuan 610041

Patentee after: Chengdu Huawei Technologies Co.,Ltd.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd.

TR01 Transfer of patent right