CN101706825A - 一种基于文件内容类型的重复数据删除方法 - Google Patents

一种基于文件内容类型的重复数据删除方法 Download PDF

Info

Publication number
CN101706825A
CN101706825A CN200910273171A CN200910273171A CN101706825A CN 101706825 A CN101706825 A CN 101706825A CN 200910273171 A CN200910273171 A CN 200910273171A CN 200910273171 A CN200910273171 A CN 200910273171A CN 101706825 A CN101706825 A CN 101706825A
Authority
CN
China
Prior art keywords
file
content type
moving window
block boundary
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200910273171A
Other languages
English (en)
Other versions
CN101706825B (zh
Inventor
周敬利
秦磊华
曾东
聂雪军
刘科
朱建峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN2009102731710A priority Critical patent/CN101706825B/zh
Publication of CN101706825A publication Critical patent/CN101706825A/zh
Application granted granted Critical
Publication of CN101706825B publication Critical patent/CN101706825B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

一种基于文件内容类型的重复数据删除方法,属于计算机数据备份的重复数据删除方法,适用于基于磁盘的备份系统,解决现有重复数据删除方法存在的分块策略单一,不能根据文件内容类型进行优化的问题。本发明预先进行块边界特征计算步骤,以下顺序包括内容类型识别步骤、文件分块步骤、数字指纹计算步骤、重复数据块判断步骤和结束步骤。本发明基于内容类型对备份文件进行分类,并针对每种内容类型计算最优的块边界特征值;在处理备份文件时增加了文件内容类型识别步骤,并根据识别结果选择块边界特征,提高了重复数据删除方法在处理复合备份文件时的整体效能。

Description

一种基于文件内容类型的重复数据删除方法
技术领域
本发明属于计算机数据备份的重复数据删除方法,具体涉及一种基于文件内容类型(Content Type)的重复数据删除方法,适用于基于磁盘的备份系统。
背景技术
进入到21世纪以后,随着信息时代的加速,数据呈现出爆炸性增长的趋势,用户存储容量日趋紧张、数据管理难度日益加大、存储支出逐渐增加。为了应对这些问题,提出了重复数据删除技术,以有效地减少用户日常备份中的重复数据,使得备份数据大大减少,从而为用户节省了存储容量,并降低了数据管理工作的难度。许多存储厂商都推出了基于重复数据删除的备份系统或软件,例如EMC公司的Avamar Data Store备份存储系统,Data Domain公司的DDX阵列以及SEPATON公司的DeltaStor软件。
根据重复数据识别的粒度,重复数据删除技术可分为文件级重复数据删除和数据块级重复数据删除,在备份环境下通常采用后者。数据块级重复数据删除技术是指将备份文件划分为多个数据块,然后判断每个数据块是否已处于存储池中,如果发现某一数据块已经存在,则会在备份文件的索引节点中插入指向已存在数据块的指针;只有不重复的数据块才会被写入磁盘的相应区域。存储池是由硬盘、磁带或光盘构成的计算机虚拟存储设备,用于存储海量数据。
在数据块级重复数据删除技术中,关键问题在于如何将备份文件划分为数据块,即如何确定数据块的边界特征。目前的分块技术有两种,定长分块和变长分块。定长分块是指将文件分块为同一大小的数据块,例如4K、8K等;变长分块是采用滑动窗口对备份文件做整体扫描,如果滑动窗口中的内容满足预定的数据块边界条件,则被识别为一个边界,两个边界之间的所有字节被分块为一个数据块。
对于数据块级重复数据删除技术而言,目前存在的主要问题是:对备份系统中的所有文件采用单一的块边界特征,而没有考虑重复数据块的数量会因文件内容性质(包括文件类型与采用的编码方式等)的不同而存在较大差异,单一块边界特征的策略不能使不同内容类型文件的重复数据删除率都达到最优。因此,需要根据内容类型对文件进行分类,并采用复合策略来分别处理不同内容类型的备份文件。
发明内容
本发明提供一种基于文件内容类型的重复数据删除方法,解决现有重复数据删除方法存在的分块策略单一,不能根据文件内容类型进行优化的问题。
备份系统定期执行备份过程,每次备份过程都得到一个备份文件集合。
在存储池中,每个文件都以一个索引节点来标识。文件被划分为多个数据块,每个数据块都通过计算得到一个哈希值;在索引节点中包含了每个数据块对应的哈希值;在哈希值表中包含了所有数据块的哈希值以及数据块在磁盘上的存储地址;通过哈希值表可以找到文件中每个数据块的地址。
本发明的一种基于文件内容类型的重复数据删除方法,预先进行块边界特征计算步骤:在备份系统中采集样本文件集合,提取样本文件的元数据,并根据元数据确定样本文件的内容类型,再根据样本文件的内容类型将样本文件集合分类为多个子集合,计算每个子集合的块边界特征值,将各个子集合的块边界特征值保存在块边界特征库中;
以下顺序包括:
A.内容类型识别步骤:提取用户输入文件的元数据,并根据元数据确定文件的内容类型,根据文件的内容类型在块边界特征库中寻找对应的块边界特征值;
B.文件分块步骤:根据步骤A中寻找到的块边界特征值,采用滑动窗口对用户输入文件整体进行扫描,将用户输入文件划分为多个数据块;
C.数字指纹计算步骤:对步骤B中产生的每个数据块,计算其哈希(HASH)值作为该数据块的数字指纹,转步骤D;
D.重复数据块判断步骤:将步骤C中生成的哈希值与存储池中的哈希值表中的哈希值进行比较,判断是否相同,是则仅将该哈希值存入文件的索引节点中,转步骤E;否则把该哈希值存入哈希值表以及文件的索引节点中,并将对应的数据块写入存储池中,转步骤E;
E.结束步骤:当前文件重复数据删除结束,当用户输入下一文件时,转步骤A;
所述存储池存储哈希值表和数据块,该哈希值表中包含所存储每个数据块的哈希值以及在磁盘上的地址,所存储的所有数据块不重复;
所述文件的元数据包括文件的内容类型、文件扩展名、生成文件的应用程序以及文件内容的编码方式,其中,文件扩展名、生成文件的应用程序以及文件内容的编码方式三种元数据构成一个元数据三元组,形为{扩展名,应用程序,编码方式}。
所述的重复数据删除方法,其特征在于:
所述块边界特征计算步骤,包括下述子步骤:
A.在存储池中生成样本文件集合:从备份系统定期执行的备份过程中,随机抽取1次备份过程生成的备份文件集合,作为样本文件集合,放入存储池中;
B.样本文件分类:提取样本文件集合中每个样本文件的元数据,并根据元数据确定文件的内容类型,相同内容类型的样本文件被放入同一子集合中;
C.确定候选块边界特征值取值范围:根据备份系统规定的平均分块大小,确定候选块边界特征值取值范围为[0,n),其中n为备份系统规定的平均分块字节大小,n=256、512、1024、2048、4096或8192;
D.生成块边界特征值:对于样本文件集合中各种内容类型的文件子集合,遍历候选特征值取值范围中的每个候选特征值,并计算该候选特征值生成的重复数据块数量;以生成重复数据块数量最大的候选特征值作为该内容类型的块边界特征值;
E.保存:在每种内容类型与相应的块边界特征值之间建立一一映射关系并保存到块边界特征库中。
所述的重复数据删除方法,其特征在于:
所述内容类型识别步骤或者块边界特征计算步骤的样本文件分类子步骤中,根据元数据确定文件的内容类型过程为:
判断元数据中是否包含内容类型属性,是则直接将其设置为文件的内容类型,否则,将文件扩展名、生成文件的应用程序以及文件内容的编码方式构成一个元数据三元组,形式为{扩展名,应用程序,编码方式},在内容类型查询表中找到文件所对应的内容类型;
所述内容类型查询表反映元数据三元组的每种取值和内容类型的对应关系。
所述的重复数据删除方法,其特征在于:
所述文件分块步骤,包括下述子步骤:
A.将文件的起始位置作为滑动窗口的初始位置,将滑动窗口所包含的字节作为第一个数据块边界;
B.将滑动窗口在文件中移动,每次移动一个字节,判断滑动窗口是否到达文件末尾,是则转子步骤C,否则转子步骤D;
C.将该滑动窗口所包含的字节作为最后一个数据块边界,该数据块边界与上一个数据块边界之间的所有字节作为文件的最后一个数据块,划分结束;
D.计算滑动窗口特征值f:
f = Σ i = 0 w - 1 ( t i × 2 w - 1 - i ) mod 2 w ,
式中,ti为滑动窗口中的字节,i=0~w-1,滑动窗口的长度w为10、20、30、40或50字节,滑动窗口中的所有字节表示为字节序列(t0,t1,...,tw-1);
E.将滑动窗口特征值f对块边界特征值取模,判断取模结果是否为0,是则转子步骤F;否则返回子步骤B;
F.该滑动窗口所包含的字节作为下一个数据块边界,下一个数据块边界与上一个数据块边界中的所有字节被划分为一个数据块,返回子步骤B。
本发明文件内容类型的分类采用多用途互联网邮件扩展(MIME,Multipurpose Internet Mail Extensions)定义的标准,即分为文本,图像,音频,视频,可执行程序以及复合文件6大类。每个大类下又定义了多个子类。
本发明基于内容类型对备份文件进行分类,并针对每种内容类型计算最优的块边界特征值;在处理备份文件时增加了文件内容类型识别步骤,并根据识别结果选择块边界特征,提高了重复数据删除方法在处理复合备份文件时的整体效能。
附图说明
图1为本发明的流程图;
图2为本发明的数据压缩比性能测试结果图;
图3为本发明的写入吞吐率性能测试结果图;
图4为本发明的读取吞吐率性能测试结果图。
具体实施方式
下面结合附图对本发明进一步说明。
如图1所示,本发明预先进行块边界特征计算步骤,以下顺序包括内容类型识别步骤、文件分块步骤、数字指纹计算步骤、重复数据块判断步骤和结束步骤。
下面给出基于内容类型的重复数据删除方法的一个完整流程示例:
预先进行块边界特征计算步骤,包括下述子步骤:
A.在存储池中生成样本文件集合:从备份系统中抽取2009年9月30日执行的备份过程生成的备份文件集合,共14427个文件,作为样本文件集合,放入存储池中;
B.样本文件分类:提取样本文件集合中每个样本文件的元数据,并根据元数据确定文件的内容类型,相同内容类型的样本文件被放入同一子集合中,共分为文本,图像,音频,视频,可执行程序以及复合文件6个子集合;
C.确定候选块边界特征值取值范围:备份系统规定的平均分块大小为1024字节,因此确定候选块边界特征值取值范围为[0,1024);
D.生成块边界特征值:对于样本文件集合中6种内容类型的文件子集合,遍历候选特征值取值范围中的每个候选特征值,并计算该候选特征值生成的重复数据块数量;以生成重复数据块数量最大的候选特征值作为该内容类型的块边界特征值;计算得到的块边界特征值分别为,文本内容类型的块边界特征值为257,图像内容类型的块边界特征值为182,音频内容类型的块边界特征值为45,视频内容类型的块边界特征值为799,可执行程序内容类型的块边界特征值为1007,复合文件内容类型的块边界特征值为368;
E.保存:在每种内容类型与相应的块边界特征值之间建立一一映射关系并保存到块边界特征库中。
用户输入文件file.dat,顺序执行以下步骤:
A.内容类型识别步骤:提取用户输入文件的元数据,构成元数据三元组{dat,Visual Studio,TXT},文件的内容类型为文本,在特征数据库中对应的块边界特征值为257;
B.文件分块步骤:根据步骤A中寻找到的块边界特征值257,采用滑动窗口对用户输入文件整体进行扫描,其中滑动窗口的长度w设为50字节,用户输入文件file.dat被划分为62个数据块;
C.数字指纹计算步骤:对步骤B中产生的每个数据块,计算其哈希(HASH)值作为该数据块的数字指纹,转步骤D;
D.重复数据块判断步骤:将步骤C中生成的哈希值与存储池中的哈希值表中的哈希值进行比较,判断是否相同,是则仅将该哈希值存入文件的索引节点中,在file.dat中共判断出48个重复数据块,转步骤E;否则把该哈希值存入哈希值表以及文件的索引节点中,并将对应的数据块写入存储池中,转步骤E;
E.结束步骤:当前文件重复数据删除结束,当用户输入下一文件时,
转步骤A;
本发明内容类型识别步骤和块边界特征计算步骤的样本文件分类子步骤中,涉及内容类型查询表,内容类型查询表反映元数据三元组的每种取值和内容类型的对应关系。文件扩展名可能多达近20种、生成文件的应用程序可能多达20余种、文件内容的编码方式有10种左右。本发明实施例中,以2种文件扩展名、2种生成文件的应用程序和2种文件内容的编码方式,构成元数据三元组,元数据三元组的每种取值和内容类型的对应关系如下述内容类型查询表所示:
  三元组{扩展名,应用程序,编码方式}   内容类型
  {dat,Visual Studio,TXT}   文本
  {dat,Visual Studio,BMP}   图片
  {dat,Eclipse,TXT}   文本
  {dat,Eclipse,BMP}   图片
  {dll,Visual Studio,TXT}   可执行程序
  {dll,Visual Studio,BMP}   可执行程序
  {dll,Eclipse,TXT}   可执行程序
  {dll,Eclipse,BMP}   可执行程序
申请人在IP存储系统上实现了本发明,并进行了实验测试。存储应用服务器采用了AMD Dual Core 2800+2.21G的CPU,1GB内存,操作系统为Linux 2.6.12;IP存储设备采用Pentium 42.4G的CPU,1.2G内存,操作系统同样为Linux 2.6.12;两台计算机通过1Gb/s的以太网卡互联。测试结果包括备份数据的压缩比,写入吞吐率以及读取吞吐率。
图2为本发明的数据压缩比性能测试结果图;其中横坐标为备份系统规定的平均分块字节大小,分别为256,512,1024,2048和4096字节;纵坐标为本发明在不同的平均分块字节大小下到达的数据压缩比,分别为10.14,9.24,8.26,8.13和8.12;数据压缩比为重复数据删除之前的数据总量除以重复数据删除之后的数据总量得到的值。
图3为本发明的写入吞吐率性能测试结果图;其中横坐标为备份系统规定的平均分块字节大小,分别为256,512,1024,2048和4096字节;纵坐标为本发明在不同的平均分块字节大小下到达的写入吞吐量,分别为69.1,62.1,55.7,55.6和55.1MB/s;
图4为本发明的读取吞吐率性能测试结果图;其中横坐标为备份系统规定的平均分块字节大小,分别为256,512,1024,2048和4096字节;纵坐标为本发明在不同的平均分块字节大小下到达的读取吞吐量,分别为40.86,39.48,37.68,37.74和31.92MB/s。

Claims (5)

1.一种基于文件内容类型的重复数据删除方法,预先进行块边界特征计算步骤:在备份系统中采集样本文件集合,提取样本文件的元数据,并根据元数据确定样本文件的内容类型,再根据样本文件的内容类型将样本文件集合分类为多个子集合,计算每个子集合的块边界特征值,将各个子集合的块边界特征值保存在块边界特征库中;
以下顺序包括:
A.内容类型识别步骤:提取用户输入文件的元数据,并根据元数据确定文件的内容类型,根据文件的内容类型在块边界特征库中寻找对应的块边界特征值;
B.文件分块步骤:根据步骤A中寻找到的块边界特征值,采用滑动窗口对用户输入文件整体进行扫描,将用户输入文件划分为多个数据块;
C.数字指纹计算步骤:对步骤B中产生的每个数据块,计算其哈希(HASH)值作为该数据块的数字指纹,转步骤D;
D.重复数据块判断步骤:将步骤C中生成的哈希值与存储池中的哈希值表中的哈希值进行比较,判断是否相同,是则仅将该哈希值存入文件的索引节点中,转步骤E;否则把该哈希值存入哈希值表以及文件的索引节点中,并将对应的数据块写入存储池中,转步骤E;
E.结束步骤:当前文件重复数据删除结束,当用户输入下一文件时,转步骤A;
所述存储池存储哈希值表和数据块,该哈希值表中包含所存储每个数据块的哈希值以及在磁盘上的地址,所存储的所有数据块不重复;
所述文件的元数据包括文件的内容类型、文件扩展名、生成文件的应用程序以及文件内容的编码方式,其中,文件扩展名、生成文件的应用程序以及文件内容的编码方式三种元数据构成一个元数据三元组,形为{扩展名,应用程序,编码方式}。
2.如权利要求1所述的重复数据删除方法,其特征在于:
所述块边界特征计算步骤,包括下述子步骤:
A.在存储池中生成样本文件集合:从备份系统定期执行的备份过程中,随机抽取1次备份过程生成的备份文件集合,作为样本文件集合,放入存储池中;
B.样本文件分类:提取样本文件集合中每个样本文件的元数据,并根据元数据确定文件的内容类型,相同内容类型的样本文件被放入同一子集合中;
C.确定候选块边界特征值取值范围:根据备份系统规定的平均分块大小,确定候选块边界特征值取值范围为[0,n),其中n为备份系统规定的平均分块字节大小,n=256、512、1024、2048、4096或8192;
D.生成块边界特征值:对于样本文件集合中各种内容类型的文件子集合,遍历候选特征值取值范围中的每个候选特征值,并计算该候选特征值生成的重复数据块数量;以生成重复数据块数量最大的候选特征值作为该内容类型的块边界特征值;
E.保存:在每种内容类型与相应的块边界特征值之间建立一一映射关系并保存到块边界特征库中。
3.如权利要求1或2所述的重复数据删除方法,其特征在于:
所述内容类型识别步骤或者块边界特征计算步骤的样本文件分类子步骤中,根据元数据确定文件的内容类型过程为:
判断元数据中是否包含内容类型属性,是则直接将其设置为文件的内容类型,否则,将文件扩展名、生成文件的应用程序以及文件内容的编码方式构成一个元数据三元组,形式为{扩展名,应用程序,编码方式},在内容类型查询表中找到文件所对应的内容类型;
所述内容类型查询表反映元数据三元组的每种取值和内容类型的对应关系。
4.如权利要求1或2所述的重复数据删除方法,其特征在于:
所述文件分块步骤,包括下述子步骤:
A.将文件的起始位置作为滑动窗口的初始位置,将滑动窗口所包含的字节作为第一个数据块边界;
B.将滑动窗口在文件中移动,每次移动一个字节,判断滑动窗口是否到达文件末尾,是则转子步骤C,否则转子步骤D;
C.将该滑动窗口所包含的字节作为最后一个数据块边界,该数据块边界与上一个数据块边界之间的所有字节作为文件的最后一个数据块,划分结束;
D.计算滑动窗口特征值f:
f = Σ i = 0 w - 1 ( t i × 2 w - 1 - i ) mod 2 w ,
式中,ti为滑动窗口中的字节,i=0~w-1,滑动窗口的长度w为10、20、30、40或50字节,滑动窗口中的所有字节表示为字节序列(t0,t1,...,tw-1);
E.将滑动窗口特征值f对块边界特征值取模,判断取模结果是否为0,是则转子步骤F;否则返回子步骤B;
F.该滑动窗口所包含的字节作为下一个数据块边界,下一个数据块边界与上一个数据块边界中的所有字节被划分为一个数据块,返回子步骤B。
5.如权利要求3所述的重复数据删除方法,其特征在于:
所述文件分块步骤,包括下述子步骤:
A.将文件的起始位置作为滑动窗口的初始位置,将滑动窗口所包含的字节作为第一个数据块边界;
B.将滑动窗口在文件中移动,每次移动一个字节,判断滑动窗口是否到达文件末尾,是则转子步骤C,否则转子步骤D;
C.将该滑动窗口所包含的字节作为最后一个数据块边界,该数据块边界与上一个数据块边界之间的所有字节作为文件的最后一个数据块,划分结束;
D.计算滑动窗口特征值f:
f = Σ i = 0 w - 1 ( t i × 2 w - 1 - i ) mod 2 w ,
式中,ti为滑动窗口中的字节,i=0~w-1,w为滑动窗口的长度,滑动窗口中的所有字节表示为字节序列(t0,t1,...,tw-1);
E.将滑动窗口特征值f对块边界特征值取模,判断取模结果是否为0,是则转子步骤F;否则返回子步骤B;
F.该滑动窗口所包含的字节作为下一个数据块边界,下一个数据块边界与上一个数据块边界中的所有字节被划分为一个数据块,返回子步骤B。
CN2009102731710A 2009-12-10 2009-12-10 一种基于文件内容类型的重复数据删除方法 Expired - Fee Related CN101706825B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009102731710A CN101706825B (zh) 2009-12-10 2009-12-10 一种基于文件内容类型的重复数据删除方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009102731710A CN101706825B (zh) 2009-12-10 2009-12-10 一种基于文件内容类型的重复数据删除方法

Publications (2)

Publication Number Publication Date
CN101706825A true CN101706825A (zh) 2010-05-12
CN101706825B CN101706825B (zh) 2011-04-20

Family

ID=42377050

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009102731710A Expired - Fee Related CN101706825B (zh) 2009-12-10 2009-12-10 一种基于文件内容类型的重复数据删除方法

Country Status (1)

Country Link
CN (1) CN101706825B (zh)

Cited By (81)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101908077A (zh) * 2010-08-27 2010-12-08 华中科技大学 一种适用于云备份的重复数据删除方法
CN101916171A (zh) * 2010-07-16 2010-12-15 中国科学院计算技术研究所 一种并发层次式的重复数据消除方法和系统
CN101963982A (zh) * 2010-09-27 2011-02-02 清华大学 基于位置敏感哈希的删冗存储系统元数据管理方法
CN101989929A (zh) * 2010-11-17 2011-03-23 中兴通讯股份有限公司 容灾数据备份的方法及系统
CN102082575A (zh) * 2010-12-14 2011-06-01 江苏格物信息科技有限公司 基于预分块及滑动窗口的重复数据消除方法
CN102214210A (zh) * 2011-05-16 2011-10-12 成都市华为赛门铁克科技有限公司 重复数据处理方法、装置和系统
CN102347969A (zh) * 2010-08-03 2012-02-08 李祥宇 云端资料储存系统
CN102402617A (zh) * 2011-12-23 2012-04-04 天津神舟通用数据技术有限公司 一种利用分片及稀疏位图的易压缩数据库索引存储系统及其相应的构建、调度和查询处理方法
CN102467571A (zh) * 2010-11-17 2012-05-23 英业达股份有限公司 重复数据删除的数据区块切分方法与新增方法
CN102469142A (zh) * 2010-11-16 2012-05-23 英业达股份有限公司 重复数据删除程序的数据传输方法
CN102467572A (zh) * 2010-11-17 2012-05-23 英业达股份有限公司 支持重复数据删除程序的数据区块查询方法
CN102479245A (zh) * 2010-11-30 2012-05-30 英业达集团(天津)电子技术有限公司 数据区块的切分方法
CN102591946A (zh) * 2010-12-28 2012-07-18 微软公司 使用索引划分和协调来进行数据去重复
CN102722450A (zh) * 2012-05-25 2012-10-10 清华大学 一种基于位置敏感哈希的删冗块设备存储方法
CN102722452A (zh) * 2012-05-29 2012-10-10 南京大学 一种内存冗余消除方法
CN102833298A (zh) * 2011-06-17 2012-12-19 英业达集团(天津)电子技术有限公司 分布式的重复数据删除系统及其处理方法
CN102982180A (zh) * 2012-12-18 2013-03-20 华为技术有限公司 数据存储方法及设备
CN102999605A (zh) * 2012-11-21 2013-03-27 重庆大学 一种通过优化数据放置来减少数据碎片的方法和装置
CN103034659A (zh) * 2011-09-29 2013-04-10 国际商业机器公司 一种重复数据删除的方法和系统
CN103098071A (zh) * 2010-09-21 2013-05-08 惠普发展公司,有限责任合伙企业 提供对数字文件的差异化访问
CN103136243A (zh) * 2011-11-29 2013-06-05 中国电信股份有限公司 基于云存储的文件系统去重方法及装置
WO2013080077A1 (en) * 2011-11-28 2013-06-06 International Business Machines Corporation Fingerprint-based data deduplication
CN103154950A (zh) * 2012-05-04 2013-06-12 华为技术有限公司 重复数据删除方法及装置
CN103152430A (zh) * 2013-03-21 2013-06-12 河海大学 一种缩减数据占用空间的云存储方法
CN103164698A (zh) * 2013-03-29 2013-06-19 华为技术有限公司 指纹库生成方法及装置、待测文本指纹匹配方法及装置
CN103309975A (zh) * 2013-06-09 2013-09-18 华为技术有限公司 一种重复数据删除方法和设备
CN103324699A (zh) * 2013-06-08 2013-09-25 西安交通大学 一种适应大数据应用的快速重复数据删除方法
CN103403717A (zh) * 2013-01-09 2013-11-20 华为技术有限公司 一种数据处理方法及装置
CN103473278A (zh) * 2013-08-28 2013-12-25 苏州天永备网络科技有限公司 一种重复数据处理技术
WO2014000458A1 (zh) * 2012-06-28 2014-01-03 华为技术有限公司 小文件处理方法及装置
CN103577278A (zh) * 2012-07-30 2014-02-12 国际商业机器公司 用于数据备份的方法和系统
US20140095439A1 (en) * 2012-10-01 2014-04-03 Western Digital Technologies, Inc. Optimizing data block size for deduplication
CN103713963A (zh) * 2012-09-29 2014-04-09 南京壹进制信息技术有限公司 一种高效的文件备份与恢复方法
CN103763362A (zh) * 2014-01-13 2014-04-30 西安电子科技大学 一种安全的分布式重复数据删除方法
CN103873503A (zh) * 2012-12-12 2014-06-18 鸿富锦精密工业(深圳)有限公司 数据块备份系统及方法
CN103873438A (zh) * 2012-12-12 2014-06-18 鸿富锦精密工业(深圳)有限公司 压缩包上传去重系统及方法
CN103916483A (zh) * 2014-04-28 2014-07-09 中国科学院成都生物研究所 一种针对编码冗余存储系统的自适应数据存储与重构方法
GB2510545A (en) * 2011-11-28 2014-08-06 Ibm Fingerprint-based data deduplication
CN104012055A (zh) * 2012-12-13 2014-08-27 华为技术有限公司 一种数据处理方法及装置
CN104050234A (zh) * 2013-03-15 2014-09-17 国际商业机器公司 在重复数据删除系统中减少摘要存储消耗的方法和系统
CN104123347A (zh) * 2014-07-04 2014-10-29 北京思特奇信息技术股份有限公司 一种应用于boss系统的数据重删方法及系统
US8935487B2 (en) 2010-05-05 2015-01-13 Microsoft Corporation Fast and low-RAM-footprint indexing for data deduplication
WO2015010555A1 (zh) * 2013-07-23 2015-01-29 华为技术有限公司 数据分块方法及装置
WO2015024160A1 (zh) * 2013-08-19 2015-02-26 华为技术有限公司 一种数据对象处理方法与装置
CN104408111A (zh) * 2014-11-24 2015-03-11 浙江宇视科技有限公司 一种删除重复数据的方法及装置
CN104408154A (zh) * 2014-12-04 2015-03-11 华为技术有限公司 重复数据删除方法及装置
US9053032B2 (en) 2010-05-05 2015-06-09 Microsoft Technology Licensing, Llc Fast and low-RAM-footprint indexing for data deduplication
CN104753626A (zh) * 2013-12-25 2015-07-01 华为技术有限公司 一种数据压缩方法、设备及系统
CN104881470A (zh) * 2015-05-28 2015-09-02 暨南大学 一种面向海量图片数据的重复数据删除方法
CN104978151A (zh) * 2015-06-19 2015-10-14 浪潮电子信息产业股份有限公司 基于应用感知的重复数据删除存储系统中的数据重构方法
CN105045530A (zh) * 2015-06-30 2015-11-11 株洲南车时代电气股份有限公司 一种数据记录存储方法
CN105354246A (zh) * 2015-10-13 2016-02-24 华南理工大学 一种基于分布式内存计算的数据去重方法
US9298604B2 (en) 2010-05-05 2016-03-29 Microsoft Technology Licensing, Llc Flash memory cache including for use with persistent key-value store
CN105511812A (zh) * 2015-12-10 2016-04-20 浪潮(北京)电子信息产业有限公司 一种存储系统大数据优化方法及装置
CN105589919A (zh) * 2015-09-18 2016-05-18 广州市动景计算机科技有限公司 网页资源处理方法及装置
CN105786655A (zh) * 2016-03-08 2016-07-20 成都云祺科技有限公司 一种虚拟机备份数据重复数据删除方法
CN103403717B (zh) * 2013-01-09 2016-11-30 华为技术有限公司 一种数据处理方法及装置
CN106326035A (zh) * 2016-08-13 2017-01-11 南京叱咤信息科技有限公司 一种基于文件元数据的增量备份方法
CN106648991A (zh) * 2016-12-28 2017-05-10 长春理工大学 数据容灾系统中的重复数据删除方法
CN106649676A (zh) * 2016-12-15 2017-05-10 北京锐安科技有限公司 一种基于hdfs存储文件的去重方法及装置
US9665610B2 (en) 2013-03-15 2017-05-30 International Business Machines Corporation Reducing digest storage consumption by tracking similarity elements in a data deduplication system
CN103685420B (zh) * 2012-09-24 2017-06-27 华为技术有限公司 一种媒体文件消重的方法、服务器及系统
CN107015978A (zh) * 2016-01-27 2017-08-04 广州市动景计算机科技有限公司 一种网页资源处理方法以及装置
WO2017193263A1 (zh) * 2016-05-09 2017-11-16 华为技术有限公司 数据查询方法、数据查询系统确定方法和装置
CN108090125A (zh) * 2017-11-14 2018-05-29 西北工业大学 一种非查询式的重复数据删除方法及装置
WO2018113210A1 (zh) * 2016-12-21 2018-06-28 深圳市易特科信息技术有限公司 医疗信息化重复医疗文件删除系统及方法
CN108241639A (zh) * 2016-12-23 2018-07-03 航天星图科技(北京)有限公司 一种数据去重方法
CN108829814A (zh) * 2018-06-10 2018-11-16 张超 一种语音交互式机器人的知识学习渐进方法和装置
CN109074226A (zh) * 2016-09-28 2018-12-21 华为技术有限公司 一种存储系统中重复数据删除方法、存储系统及控制器
CN109117656A (zh) * 2018-08-27 2019-01-01 惠州Tcl移动通信有限公司 一种自动保存信息数据的方法、存储介质及移动终端
CN109240605A (zh) * 2018-08-17 2019-01-18 华中科技大学 一种基于3d堆叠内存的快速重复数据块识别方法
CN109582640A (zh) * 2018-11-15 2019-04-05 深圳市酷开网络科技有限公司 一种基于滑动窗口的数据去重存储方法、装置及存储介质
WO2019082016A1 (en) * 2017-10-25 2019-05-02 International Business Machines Corporation IMPROVED DEDUPLICATION PERFORMANCE BASED ON DISPERSED LOCATIONS
CN109743553A (zh) * 2019-01-26 2019-05-10 温州大学 一种基于深度学习模型的隐藏图像检测方法及系统
CN109783469A (zh) * 2018-12-14 2019-05-21 上海威固信息技术股份有限公司 一种基于内容感知的数据去重方法与装置
CN110083743A (zh) * 2019-03-28 2019-08-02 哈尔滨工业大学(深圳) 一种基于统一采样的快速相似数据检测方法
CN112115108A (zh) * 2020-09-11 2020-12-22 哈尔滨工业大学(威海) 一种车辆物联网云存储系统重复数据删除方法
CN112202910A (zh) * 2020-10-10 2021-01-08 上海威固信息技术股份有限公司 一种计算机分布式存储系统
CN113434344A (zh) * 2021-07-22 2021-09-24 咪咕数字传媒有限公司 文件存储方法、装置、计算设备及计算机存储介质
CN114091111A (zh) * 2021-09-09 2022-02-25 深圳前海微众银行股份有限公司 一种区块链智能合约的存储方法及装置
CN116737670A (zh) * 2023-08-11 2023-09-12 英诺达(成都)电子科技有限公司 Upf文件的删除方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100411446B1 (ko) * 2001-12-24 2003-12-18 엘지전자 주식회사 에이에이엘2 시그널링의 타입 3 패킷 처리 방법
CN101546320B (zh) * 2008-03-27 2011-11-16 北京兴宇中科科技开发股份有限公司 一种基于滑动窗口的数据差异分析方法

Cited By (151)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9436596B2 (en) 2010-05-05 2016-09-06 Microsoft Technology Licensing, Llc Flash memory cache including for use with persistent key-value store
US9053032B2 (en) 2010-05-05 2015-06-09 Microsoft Technology Licensing, Llc Fast and low-RAM-footprint indexing for data deduplication
US8935487B2 (en) 2010-05-05 2015-01-13 Microsoft Corporation Fast and low-RAM-footprint indexing for data deduplication
US9298604B2 (en) 2010-05-05 2016-03-29 Microsoft Technology Licensing, Llc Flash memory cache including for use with persistent key-value store
CN101916171A (zh) * 2010-07-16 2010-12-15 中国科学院计算技术研究所 一种并发层次式的重复数据消除方法和系统
CN102347969B (zh) * 2010-08-03 2014-07-09 李祥宇 云端资料储存系统
CN102347969A (zh) * 2010-08-03 2012-02-08 李祥宇 云端资料储存系统
CN101908077B (zh) * 2010-08-27 2012-11-21 华中科技大学 一种适用于云备份的重复数据删除方法
CN101908077A (zh) * 2010-08-27 2010-12-08 华中科技大学 一种适用于云备份的重复数据删除方法
US9444628B2 (en) 2010-09-21 2016-09-13 Hewlett-Packard Development Company, L.P. Providing differential access to a digital document
CN103098071A (zh) * 2010-09-21 2013-05-08 惠普发展公司,有限责任合伙企业 提供对数字文件的差异化访问
CN103098071B (zh) * 2010-09-21 2016-11-16 惠普发展公司,有限责任合伙企业 提供对数字文件的差异化访问的方法和设备
CN101963982A (zh) * 2010-09-27 2011-02-02 清华大学 基于位置敏感哈希的删冗存储系统元数据管理方法
CN101963982B (zh) * 2010-09-27 2012-07-25 清华大学 基于位置敏感哈希的删冗存储系统元数据管理方法
CN102469142A (zh) * 2010-11-16 2012-05-23 英业达股份有限公司 重复数据删除程序的数据传输方法
CN102467572A (zh) * 2010-11-17 2012-05-23 英业达股份有限公司 支持重复数据删除程序的数据区块查询方法
WO2012065408A1 (zh) * 2010-11-17 2012-05-24 中兴通讯股份有限公司 容灾数据备份的方法及系统
CN102467571A (zh) * 2010-11-17 2012-05-23 英业达股份有限公司 重复数据删除的数据区块切分方法与新增方法
CN101989929A (zh) * 2010-11-17 2011-03-23 中兴通讯股份有限公司 容灾数据备份的方法及系统
CN102467572B (zh) * 2010-11-17 2013-10-02 英业达股份有限公司 支持重复数据删除程序的数据区块查询方法
CN101989929B (zh) * 2010-11-17 2014-07-02 中兴通讯股份有限公司 容灾数据备份的方法及系统
CN102479245A (zh) * 2010-11-30 2012-05-30 英业达集团(天津)电子技术有限公司 数据区块的切分方法
CN102479245B (zh) * 2010-11-30 2013-07-17 英业达集团(天津)电子技术有限公司 数据区块的切分方法
CN102082575A (zh) * 2010-12-14 2011-06-01 江苏格物信息科技有限公司 基于预分块及滑动窗口的重复数据消除方法
US9110936B2 (en) 2010-12-28 2015-08-18 Microsoft Technology Licensing, Llc Using index partitioning and reconciliation for data deduplication
US9785666B2 (en) 2010-12-28 2017-10-10 Microsoft Technology Licensing, Llc Using index partitioning and reconciliation for data deduplication
CN102591946A (zh) * 2010-12-28 2012-07-18 微软公司 使用索引划分和协调来进行数据去重复
CN102214210B (zh) * 2011-05-16 2013-03-13 华为数字技术(成都)有限公司 重复数据处理方法、装置和系统
CN102214210A (zh) * 2011-05-16 2011-10-12 成都市华为赛门铁克科技有限公司 重复数据处理方法、装置和系统
CN102833298A (zh) * 2011-06-17 2012-12-19 英业达集团(天津)电子技术有限公司 分布式的重复数据删除系统及其处理方法
CN103034659A (zh) * 2011-09-29 2013-04-10 国际商业机器公司 一种重复数据删除的方法和系统
CN103034659B (zh) * 2011-09-29 2015-08-19 国际商业机器公司 一种重复数据删除的方法和系统
US11416452B2 (en) 2011-11-28 2022-08-16 International Business Machines Corporation Determining chunk boundaries for deduplication of storage objects
US9047304B2 (en) 2011-11-28 2015-06-02 International Business Machines Corporation Optimization of fingerprint-based deduplication
US10565166B2 (en) 2011-11-28 2020-02-18 International Business Machines Corporation Determining chunk boundaries for deduplication of storage objects in a network computing environment
WO2013080077A1 (en) * 2011-11-28 2013-06-06 International Business Machines Corporation Fingerprint-based data deduplication
US10474639B2 (en) 2011-11-28 2019-11-12 International Business Machines Corporation Determining chunk boundaries for deduplication of storage objects
GB2510545A (en) * 2011-11-28 2014-08-06 Ibm Fingerprint-based data deduplication
CN103136243A (zh) * 2011-11-29 2013-06-05 中国电信股份有限公司 基于云存储的文件系统去重方法及装置
CN103136243B (zh) * 2011-11-29 2016-08-31 中国电信股份有限公司 基于云存储的文件系统去重方法及装置
CN102402617A (zh) * 2011-12-23 2012-04-04 天津神舟通用数据技术有限公司 一种利用分片及稀疏位图的易压缩数据库索引存储系统及其相应的构建、调度和查询处理方法
US8719237B2 (en) 2012-05-04 2014-05-06 Huawei Technologies Co., Ltd. Method and apparatus for deleting duplicate data
CN103154950B (zh) * 2012-05-04 2014-12-10 华为技术有限公司 重复数据删除方法及装置
CN103154950A (zh) * 2012-05-04 2013-06-12 华为技术有限公司 重复数据删除方法及装置
WO2013163813A1 (zh) * 2012-05-04 2013-11-07 华为技术有限公司 重复数据删除方法及装置
CN102722450A (zh) * 2012-05-25 2012-10-10 清华大学 一种基于位置敏感哈希的删冗块设备存储方法
CN102722450B (zh) * 2012-05-25 2015-01-14 清华大学 一种基于位置敏感哈希的删冗块设备存储方法
CN102722452A (zh) * 2012-05-29 2012-10-10 南京大学 一种内存冗余消除方法
CN102722452B (zh) * 2012-05-29 2015-02-18 南京大学 一种内存冗余消除方法
WO2014000458A1 (zh) * 2012-06-28 2014-01-03 华为技术有限公司 小文件处理方法及装置
CN103514210A (zh) * 2012-06-28 2014-01-15 华为技术有限公司 小文件处理方法及装置
CN103514210B (zh) * 2012-06-28 2017-06-27 华为技术有限公司 小文件处理方法及装置
US10055310B2 (en) 2012-07-30 2018-08-21 International Business Machines Corporation Method and system for data backup
CN103577278B (zh) * 2012-07-30 2016-12-21 国际商业机器公司 用于数据备份的方法和系统
US9465699B2 (en) 2012-07-30 2016-10-11 International Business Machines Corporation Method and system for data backup
CN103577278A (zh) * 2012-07-30 2014-02-12 国际商业机器公司 用于数据备份的方法和系统
CN107360138B (zh) * 2012-09-24 2020-09-25 华为技术有限公司 一种媒体文件消重的方法、服务器及系统
CN107426183B (zh) * 2012-09-24 2021-02-09 华为技术有限公司 一种媒体文件消重的方法、服务器及系统
CN107426183A (zh) * 2012-09-24 2017-12-01 华为技术有限公司 一种媒体文件消重的方法、服务器及系统
CN107360138A (zh) * 2012-09-24 2017-11-17 华为技术有限公司 一种媒体文件消重的方法、服务器及系统
CN103685420B (zh) * 2012-09-24 2017-06-27 华为技术有限公司 一种媒体文件消重的方法、服务器及系统
CN103713963A (zh) * 2012-09-29 2014-04-09 南京壹进制信息技术有限公司 一种高效的文件备份与恢复方法
CN103713963B (zh) * 2012-09-29 2017-06-23 南京壹进制信息技术股份有限公司 一种高效的文件备份与恢复方法
US20140095439A1 (en) * 2012-10-01 2014-04-03 Western Digital Technologies, Inc. Optimizing data block size for deduplication
US9626373B2 (en) * 2012-10-01 2017-04-18 Western Digital Technologies, Inc. Optimizing data block size for deduplication
CN104871155A (zh) * 2012-10-01 2015-08-26 西部数据技术公司 优化用于去重的数据块大小
CN104871155B (zh) * 2012-10-01 2019-12-06 西部数据技术公司 优化用于去重的数据块大小
CN102999605A (zh) * 2012-11-21 2013-03-27 重庆大学 一种通过优化数据放置来减少数据碎片的方法和装置
CN103873503A (zh) * 2012-12-12 2014-06-18 鸿富锦精密工业(深圳)有限公司 数据块备份系统及方法
CN103873438A (zh) * 2012-12-12 2014-06-18 鸿富锦精密工业(深圳)有限公司 压缩包上传去重系统及方法
CN104012055A (zh) * 2012-12-13 2014-08-27 华为技术有限公司 一种数据处理方法及装置
CN104012055B (zh) * 2012-12-13 2017-04-12 华为技术有限公司 一种数据处理方法及装置
CN102982180A (zh) * 2012-12-18 2013-03-20 华为技术有限公司 数据存储方法及设备
CN102982180B (zh) * 2012-12-18 2016-08-03 华为技术有限公司 数据存储方法及设备
WO2014107845A1 (zh) * 2013-01-09 2014-07-17 华为技术有限公司 一种数据处理方法及装置
CN103403717A (zh) * 2013-01-09 2013-11-20 华为技术有限公司 一种数据处理方法及装置
CN103403717B (zh) * 2013-01-09 2016-11-30 华为技术有限公司 一种数据处理方法及装置
CN104050234B (zh) * 2013-03-15 2017-07-28 国际商业机器公司 在重复数据删除系统中减少摘要存储消耗的方法和系统
US9665610B2 (en) 2013-03-15 2017-05-30 International Business Machines Corporation Reducing digest storage consumption by tracking similarity elements in a data deduplication system
US9678975B2 (en) 2013-03-15 2017-06-13 International Business Machines Corporation Reducing digest storage consumption in a data deduplication system
CN104050234A (zh) * 2013-03-15 2014-09-17 国际商业机器公司 在重复数据删除系统中减少摘要存储消耗的方法和系统
CN103152430B (zh) * 2013-03-21 2016-06-08 河海大学 一种缩减数据占用空间的云存储方法
CN103152430A (zh) * 2013-03-21 2013-06-12 河海大学 一种缩减数据占用空间的云存储方法
CN103164698B (zh) * 2013-03-29 2016-01-27 华为技术有限公司 文本指纹库生成方法及装置、文本指纹匹配方法及装置
CN103164698A (zh) * 2013-03-29 2013-06-19 华为技术有限公司 指纹库生成方法及装置、待测文本指纹匹配方法及装置
CN103324699B (zh) * 2013-06-08 2016-03-02 西安交通大学 一种适应大数据应用的快速重复数据删除方法
CN103324699A (zh) * 2013-06-08 2013-09-25 西安交通大学 一种适应大数据应用的快速重复数据删除方法
CN103309975A (zh) * 2013-06-09 2013-09-18 华为技术有限公司 一种重复数据删除方法和设备
CN104348571A (zh) * 2013-07-23 2015-02-11 华为技术有限公司 数据分块方法及装置
CN104348571B (zh) * 2013-07-23 2018-02-06 华为技术有限公司 数据分块方法及装置
WO2015010555A1 (zh) * 2013-07-23 2015-01-29 华为技术有限公司 数据分块方法及装置
CN105051724A (zh) * 2013-08-19 2015-11-11 华为技术有限公司 一种数据对象处理方法与装置
US10359939B2 (en) 2013-08-19 2019-07-23 Huawei Technologies Co., Ltd. Data object processing method and apparatus
RU2626334C2 (ru) * 2013-08-19 2017-07-26 Хуавей Текнолоджиз Ко., Лтд. Способ и устройство обработки объекта данных
CN105051724B (zh) * 2013-08-19 2018-09-28 华为技术有限公司 一种数据对象处理方法与装置
WO2015024160A1 (zh) * 2013-08-19 2015-02-26 华为技术有限公司 一种数据对象处理方法与装置
CN103473278A (zh) * 2013-08-28 2013-12-25 苏州天永备网络科技有限公司 一种重复数据处理技术
CN104753626A (zh) * 2013-12-25 2015-07-01 华为技术有限公司 一种数据压缩方法、设备及系统
CN103763362B (zh) * 2014-01-13 2016-12-21 西安电子科技大学 一种安全的分布式重复数据删除方法
CN103763362A (zh) * 2014-01-13 2014-04-30 西安电子科技大学 一种安全的分布式重复数据删除方法
CN103916483A (zh) * 2014-04-28 2014-07-09 中国科学院成都生物研究所 一种针对编码冗余存储系统的自适应数据存储与重构方法
CN104123347A (zh) * 2014-07-04 2014-10-29 北京思特奇信息技术股份有限公司 一种应用于boss系统的数据重删方法及系统
CN104123347B (zh) * 2014-07-04 2018-01-09 北京思特奇信息技术股份有限公司 一种应用于boss系统的数据重删方法及系统
CN104408111A (zh) * 2014-11-24 2015-03-11 浙江宇视科技有限公司 一种删除重复数据的方法及装置
CN104408111B (zh) * 2014-11-24 2017-12-15 浙江宇视科技有限公司 一种删除重复数据的方法及装置
CN104408154A (zh) * 2014-12-04 2015-03-11 华为技术有限公司 重复数据删除方法及装置
CN104408154B (zh) * 2014-12-04 2018-05-29 华为技术有限公司 重复数据删除方法及装置
CN104881470B (zh) * 2015-05-28 2018-05-08 暨南大学 一种面向海量图片数据的重复数据删除方法
CN104881470A (zh) * 2015-05-28 2015-09-02 暨南大学 一种面向海量图片数据的重复数据删除方法
CN104978151B (zh) * 2015-06-19 2017-12-29 浪潮电子信息产业股份有限公司 基于应用感知的重复数据删除存储系统中的数据重构方法
CN104978151A (zh) * 2015-06-19 2015-10-14 浪潮电子信息产业股份有限公司 基于应用感知的重复数据删除存储系统中的数据重构方法
CN105045530B (zh) * 2015-06-30 2018-02-16 株洲南车时代电气股份有限公司 一种数据记录存储方法
CN105045530A (zh) * 2015-06-30 2015-11-11 株洲南车时代电气股份有限公司 一种数据记录存储方法
CN105589919A (zh) * 2015-09-18 2016-05-18 广州市动景计算机科技有限公司 网页资源处理方法及装置
CN105354246B (zh) * 2015-10-13 2018-11-02 华南理工大学 一种基于分布式内存计算的数据去重方法
CN105354246A (zh) * 2015-10-13 2016-02-24 华南理工大学 一种基于分布式内存计算的数据去重方法
CN105511812B (zh) * 2015-12-10 2018-12-18 浪潮(北京)电子信息产业有限公司 一种存储系统大数据优化方法及装置
CN105511812A (zh) * 2015-12-10 2016-04-20 浪潮(北京)电子信息产业有限公司 一种存储系统大数据优化方法及装置
CN107015978A (zh) * 2016-01-27 2017-08-04 广州市动景计算机科技有限公司 一种网页资源处理方法以及装置
CN107015978B (zh) * 2016-01-27 2020-07-07 阿里巴巴(中国)有限公司 一种网页资源处理方法以及装置
CN105786655A (zh) * 2016-03-08 2016-07-20 成都云祺科技有限公司 一种虚拟机备份数据重复数据删除方法
WO2017193263A1 (zh) * 2016-05-09 2017-11-16 华为技术有限公司 数据查询方法、数据查询系统确定方法和装置
CN106326035A (zh) * 2016-08-13 2017-01-11 南京叱咤信息科技有限公司 一种基于文件元数据的增量备份方法
CN109074226A (zh) * 2016-09-28 2018-12-21 华为技术有限公司 一种存储系统中重复数据删除方法、存储系统及控制器
CN109074226B (zh) * 2016-09-28 2020-03-20 华为技术有限公司 一种存储系统中重复数据删除方法、存储系统及控制器
CN106649676A (zh) * 2016-12-15 2017-05-10 北京锐安科技有限公司 一种基于hdfs存储文件的去重方法及装置
WO2018113210A1 (zh) * 2016-12-21 2018-06-28 深圳市易特科信息技术有限公司 医疗信息化重复医疗文件删除系统及方法
CN108241639A (zh) * 2016-12-23 2018-07-03 航天星图科技(北京)有限公司 一种数据去重方法
CN108241639B (zh) * 2016-12-23 2019-07-23 中科星图股份有限公司 一种数据去重方法
CN106648991A (zh) * 2016-12-28 2017-05-10 长春理工大学 数据容灾系统中的重复数据删除方法
GB2580276B (en) * 2017-10-25 2020-12-09 Ibm Improved performance of dispersed location-based deduplication
GB2580276A (en) * 2017-10-25 2020-07-15 Ibm Improved performance of dispersed location-based deduplication
WO2019082016A1 (en) * 2017-10-25 2019-05-02 International Business Machines Corporation IMPROVED DEDUPLICATION PERFORMANCE BASED ON DISPERSED LOCATIONS
US11269531B2 (en) 2017-10-25 2022-03-08 International Business Machines Corporation Performance of dispersed location-based deduplication
CN111213130B (zh) * 2017-10-25 2024-03-01 国际商业机器公司 基于分散位置的去重的性能改进
CN111213130A (zh) * 2017-10-25 2020-05-29 国际商业机器公司 基于分散位置的去重的性能改进
CN108090125B (zh) * 2017-11-14 2021-05-25 西北工业大学 一种非查询式的重复数据删除方法及装置
CN108090125A (zh) * 2017-11-14 2018-05-29 西北工业大学 一种非查询式的重复数据删除方法及装置
CN108829814A (zh) * 2018-06-10 2018-11-16 张超 一种语音交互式机器人的知识学习渐进方法和装置
CN109240605A (zh) * 2018-08-17 2019-01-18 华中科技大学 一种基于3d堆叠内存的快速重复数据块识别方法
CN109117656A (zh) * 2018-08-27 2019-01-01 惠州Tcl移动通信有限公司 一种自动保存信息数据的方法、存储介质及移动终端
CN109582640A (zh) * 2018-11-15 2019-04-05 深圳市酷开网络科技有限公司 一种基于滑动窗口的数据去重存储方法、装置及存储介质
CN109783469A (zh) * 2018-12-14 2019-05-21 上海威固信息技术股份有限公司 一种基于内容感知的数据去重方法与装置
CN109743553A (zh) * 2019-01-26 2019-05-10 温州大学 一种基于深度学习模型的隐藏图像检测方法及系统
CN110083743A (zh) * 2019-03-28 2019-08-02 哈尔滨工业大学(深圳) 一种基于统一采样的快速相似数据检测方法
CN112115108A (zh) * 2020-09-11 2020-12-22 哈尔滨工业大学(威海) 一种车辆物联网云存储系统重复数据删除方法
CN112202910A (zh) * 2020-10-10 2021-01-08 上海威固信息技术股份有限公司 一种计算机分布式存储系统
CN113434344A (zh) * 2021-07-22 2021-09-24 咪咕数字传媒有限公司 文件存储方法、装置、计算设备及计算机存储介质
CN114091111A (zh) * 2021-09-09 2022-02-25 深圳前海微众银行股份有限公司 一种区块链智能合约的存储方法及装置
CN116737670A (zh) * 2023-08-11 2023-09-12 英诺达(成都)电子科技有限公司 Upf文件的删除方法、装置、设备及存储介质
CN116737670B (zh) * 2023-08-11 2023-11-17 英诺达(成都)电子科技有限公司 Upf文件的删除方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN101706825B (zh) 2011-04-20

Similar Documents

Publication Publication Date Title
CN101706825B (zh) 一种基于文件内容类型的重复数据删除方法
CN111125089B (zh) 时序数据存储方法、装置、服务器及存储介质
CN101963982B (zh) 基于位置敏感哈希的删冗存储系统元数据管理方法
CN101866358B (zh) 一种多维区间查询方法及系统
CN102467572B (zh) 支持重复数据删除程序的数据区块查询方法
CN103229173B (zh) 元数据管理方法及系统
CN105630955B (zh) 一种高效动态的数据集合成员管理方法
CN103488709B (zh) 一种索引建立方法及系统、检索方法及系统
CN102629247B (zh) 一种数据处理方法、装置和系统
CN105468642A (zh) 数据的存储方法及装置
CN103678405B (zh) 邮件索引建立方法及系统、邮件搜索方法及系统
CN105320775A (zh) 数据的存取方法和装置
CN102831222A (zh) 一种基于重复数据删除的差量压缩方法
CN102323958A (zh) 重复数据删除方法
CN103140840B (zh) 数据管理的方法及装置
CN104408111A (zh) 一种删除重复数据的方法及装置
CN106874348A (zh) 文件存储和索引方法、装置及读取文件的方法
CN103176754A (zh) 一种海量小文件读取存储方法
CN103955530A (zh) 一种在线重复数据删除系统的数据重建优化方法
CN104239377A (zh) 跨平台的数据检索方法及装置
CN104281717A (zh) 一种建立海量id映射关系的方法
CN102411632B (zh) 基于链表的内存数据库页式存储方法
CN103345496A (zh) 多媒体信息检索方法和系统
CN103345449B (zh) 一种面向重复数据删除技术的指纹预取方法及系统
CN110569245A (zh) 重复数据删除系统中基于强化学习的指纹索引预取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110420

Termination date: 20131210