CN110083743B - 一种基于统一采样的快速相似数据检测方法 - Google Patents

一种基于统一采样的快速相似数据检测方法 Download PDF

Info

Publication number
CN110083743B
CN110083743B CN201910243356.0A CN201910243356A CN110083743B CN 110083743 B CN110083743 B CN 110083743B CN 201910243356 A CN201910243356 A CN 201910243356A CN 110083743 B CN110083743 B CN 110083743B
Authority
CN
China
Prior art keywords
value
hash
sliding
similarity
super
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910243356.0A
Other languages
English (en)
Other versions
CN110083743A (zh
Inventor
夏文
王轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN201910243356.0A priority Critical patent/CN110083743B/zh
Publication of CN110083743A publication Critical patent/CN110083743A/zh
Application granted granted Critical
Publication of CN110083743B publication Critical patent/CN110083743B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9014Indexing; Data structures therefor; Storage structures hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明提供了一种基于统一采样的快速相似数据检测方法,包括以下步骤:A、基于滑动窗口算法快速计算哈希集合;B、对计算得出的哈希集合进行快速统一采样;C基于采样后的哈希集合,再提取相似性特征值和超级特征值用于相似性匹配查找。本发明的有益效果是:在保持原有的相似性检测效率的前提下,通过快速滑动哈希计算,以及通过统一采样方法大幅度地减少了需要线性变换的指纹数量,从而简化了后面的提取特征值和超级特征值的计算,最终大幅度提升相似数据检测速度,以实现面向大规模存储系统的快速高效的相似数据检测效果。

Description

一种基于统一采样的快速相似数据检测方法
技术领域
本发明涉及相似数据检测方法,尤其涉及一种基于统一采样的快速相似数据检测方法。
背景技术
近年来,随着计算机技术和网络的发展普及,全球的数据信息存储量呈爆炸式增长的趋势。虽然存储设备的售价一直在不停地下降,但也远远赶不上数据扩张增长的速度。数据消冗(或称冗余数据消除)作为一种通过大规模地有效地消除冗余数据的技术,成为了近年来存储系统研究的热点。冗余数据消除不仅能够大量地节省了存储空间以及提高存储系统性能,而且通过避免冗余数据传输而节省了网络带宽。冗余数据消除技术的兴起源于存储市场中的大量数据备份和归档的需求,而需求带动了研发与产品化,IBM、HP、EMC、NEC、Microsoft这些存储大公司都瞄准了数据消冗市场,开发出了一系列的数据消冗产品。一般而言,通过有效地检测并消除存储系统中的冗余数据,可以实现数倍甚至是数十倍地节省存储空间的效果。
面向存储系统的数据消冗技术包括数据去重和差量压缩,其中差量压缩主要负责处理相似数据消冗。比如两个数据块A1和A2仅几个字节不同的情况,差量压缩技术通过计算数据块A1和A2的差量,实现节省存储空间的目的。具体而言,差量压缩是一项高效的数据压缩技术,它能够根据引用数据块Ar对其相似数据块Ai进行高度压缩。数据块的相似度越高,则压缩效率越高。如公式所示,把Ar和Ai输入Delta算法器,Delta算法器会输出一个差量数据△r,i代表文件Ai的压缩版本。如需要解压数据Ai,则读取差量数据和引用数据块Ar即可以计算得出数据Ai
Figure BDA0002010341080000011
Figure BDA0002010341080000012
但是把差量压缩技术结合到存储系统中不那么简单,主要的挑战是需要先确定对哪些数据进行差量压缩,即如何查找相似的数据。现有的相似数据查找方法具有计算速度慢,可扩展性差等缺点,现在常用的相似性特征值提取方法计算带宽只有几十MB/s,这严重限制了差量压缩算法的推广和发展。
原始的方案基于全局扫描数据块的特征值(假设数据块的长度为N),具体采用基于滑动窗口的技术,针对每个窗口算法Rabin哈希值,这样就产生了N个Rabin值,同时对着N个Rabin值进行M次线性变换,获得M维Rabin值,然后对这M维的数据进行特征值提取(一般来说是提取最大值),这样就获得了M个特征值,然后对这M个特征值进行组合就获得了超级特征值。
如下公式给出了具体计算案例:
Figure BDA0002010341080000021
SuperFearturek=Rabin(Feature1,Feature2,...) (4)
这里Featurei指的就是相似性特征值,SuperFeaturek指的是超级特征值,Rabin(Wj)表示滑动窗口Wj的Rabin指纹,mi和ai表示预定的随机数;在这里数据块的长度为N,所以该数据块有N个滑动窗口,相似性特征值Feature就是在这N个滑动窗口的Rabin指纹中取哈希最大值。不同预定值mi和ai就会产生不同相似性特征值。
而超级特征值算法就是采用了多个mi和ai组合产生多个维度的相似性特征值,然后采用三个或者是三个以上Feature组成超级特征值。目前主流相似数据检测方案推荐计算多个超级特征值SuperFeature来提高相似查找的效率:即只要有一个超级特征值匹配就认定两个数据块很相似,从而可以进入下一步的差量压缩编码,最终实现节省存储空间的目的。
需要对数据块全局扫描内容计算Rabin指纹值(Rabin计算很费时),同时需要对这所有的Rabin指纹值进行M次线性变换计算(线性变换计算很费时),以获得M个特征值,从而进一步组装获得多个超级特征值,整体计算速度很慢。
因此,如何提升相似数据的检测速度是本领域技术人员所亟待解决的技术问题。
发明内容
为了解决现有技术中的问题,本发明提供了一种基于统一采样的快速相似数据检测方法。
本发明提供了一种基于统一采样的快速相似数据检测方法,包括以下步骤:
A、基于滑动窗口算法快速计算哈希集合;
B、对计算得出的哈希集合进行快速统一采样。
作为本发明的进一步改进,在步骤B后,进行以下过程:基于采样后的哈希集合,再提取特征值和超级特征值用于相似性匹配查找。
作为本发明的进一步改进,还包括以下步骤:
C、对采样后的哈希集合,进行M次线性变换,获得M个新的集合,并基于计算最大值原则,每个集合提取出一个特征值;
D、对特征值进行超级特征值打包,并向已经存在的超级特征值索引库里面进行查找匹配;
E、如果有一个超级特征值匹配,则认为数据块相似,进一步差量压缩编码处理以及存储;对于未匹配的数据块,则将相应的数据块存入存储系统,同时将对应的超级特征值写入超级特征值索引库。
作为本发明的进一步改进,在步骤A中,基于快速滑动哈希算法,计算出得滑动指纹集{F1,F2,……,FN}。
作为本发明的进一步改进,在步骤C中,采样得出新的集合{Z1,Z2,……,ZX},该集合的成员数远远小于原始滑动指纹集大小N。
作为本发明的进一步改进,在步骤A中,快速滑动哈希算法为:通过一个32/64位的整形数数组放大数据字节内容,实现哈希散列的效果,同时满足滑动哈希算法要求,即当前窗口的哈希值可以基于上个窗口哈希值快速算出。
作为本发明的进一步改进,快速滑动哈希算法的核心计算策略如下:fpi=(fpi-1<<1)^G[b],其中,G指一个预先算好的固定随机数组,可以对每个字节映射到一个很大随机数;fpi就是FastHash算出来的当前滑动窗口的指纹值;fpi-1就是当前滑动窗口的上一个窗口的指纹值;b就是当前滑动窗口的最后一个字节的内容。
作为本发明的进一步改进,步骤B中的快速统一采样为:统一判断fpi的前X1个比特位(或者是后X1个比特位,或者是中间X1个比特位)是否为零(或者统一判断为一;或者统一判断为设定值X2,比如X1=5的情况:01011;或者其他类似的采样方法),如果为零,则进入采样集合,X1为设定值。
作为本发明的进一步改进,X1可以等于1,2,3,4等,而且采样的比例也对应为1/(2X1)。
作为本发明的进一步改进,在步骤C中,每个集合提取出一个特征值,即最大值或者最小值,特征值的计算公式如下,
Figure BDA0002010341080000041
其中,特征值又称相似性特征值,Featurei指的就是相似性特征值,FastHash Wj)表示滑动窗口Wj的FastHash指纹,mi和ai表示预定的随机数;在这里数据块的长度为N,所以该数据块有N个滑动窗口,相似性特征值Featurei就是在这N个滑动窗口的FastHash指纹中取哈希最大值,不同预定值mi和ai会产生不同相似性特征值。
作为本发明的进一步改进,在步骤D中,超级特征值的计算公式如下,
SuperFearturek=Hash(Feature1,Feature2,...),
其中,SuperFeaturek指的是超级特征值,将用于最终的相似数据匹配,在上面这条计算超级特征值的公式中的Hash算法不做具体要求(因为这里涉及到的数据量很少),可以取SHA1,Rabin等指纹算法。
本发明的有益效果是:通过上述方案,在保持原有的相似性检测效率的前提下,通过快速滑动哈希计算,以及通过统一采样方法大幅度地减少了需要线性变换的指纹数量,从而简化了后面的提取特征值和超级特征值的计算,最终大幅度提升相似数据检测速度,以实现面向大规模存储系统的快速高效的相似数据检测效果。
附图说明
图1是本发明一种基于统一采样的快速相似数据检测方法的相似数据差量压缩的整理过程图。
图2是本发明一种基于统一采样的快速相似数据检测方法的快速滑动哈希算法的示意图。
图3是本发明一种基于统一采样的快速相似数据检测方法的流程图。
具体实施方式
下面结合附图说明及具体实施方式对本发明作进一步说明。
如图1至图3所示,一种基于统一采样的快速相似数据检测方法,包括以下步骤:
A、基于滑动窗口算法快速计算哈希集合,确保尽可能多的覆盖重复或者相似内容,即如果两个数据块相似,那其所对应的哈希集合也很有很多重复值;
B、对计算得出的哈希集合进行快速统一采样,如果两个数据集很相似,那么对这个数据集进行统一采样后的数据集也很相似;
C、对采样后的哈希集合,进行M次线性变换,获得M个新的集合,并基于计算最大值原则,每个集合提取出一个特征值(最大值或者最小值),特征值的计算公式如下,
Figure BDA0002010341080000051
其中,特征值又称相似性特征值,Featurei指的就是相似性特征值,FastHash(Wj)表示滑动窗口Wj的FastHash指纹,mi和ai表示预定的随机数;在这里数据块的长度为N,所以该数据块有N个滑动窗口,相似性特征值Featurei就是在这N个滑动窗口的FastHash指纹中取哈希最大值,不同预定值mi和ai会产生不同相似性特征值;
D、对特征值进行超级特征值打包,并向已经存在的超级特征值索引库里面进行查找匹配,超级特征值的计算公式如下,
SuperFearturek=Hash(Feature1,Feature2,...),
其中,SuperFeaturek指的是超级特征值;
E、如果有一个超级特征值匹配,则认为数据块相似,进一步差量压缩编码处理以及存储;对于未匹配的数据块,则将相应的数据块存入存储系统,同时将对应的超级特征值写入超级特征值索引库。
在步骤A中,基于快速滑动哈希算法,计算出得滑动指纹集{F1,F2,……,FN}。
在步骤C中,采样得出新的集合{Z1,Z2,……,ZX},该集合的成员数远远小于原始滑动指纹集大小N。
在步骤A中,快速滑动哈希算法(FastHash)为:通过一个32/64位的整形数数组放大数据字节内容,实现哈希散列的效果,同时满足滑动哈希算法要求,即当前窗口的哈希值可以基于上个窗口哈希值快速算出。
快速滑动哈希算法的核心计算策略如下:fpi=(fpi-1<<1)^G[b],其中,G指一个预先算好的固定随机数组,可以对每个字节映射到一个很大随机数;fpi就是FastHash算出来的当前滑动窗口的指纹值;fpi-1就是当前滑动窗口的上一个窗口的指纹值;b就是当前滑动窗口的最后一个字节的内容。
总的来说,FastHash实现类似传统Rabin滑动哈希计算的效果,但是这里的计算只需要一次移位以及一次异或运算即可完成。同时注意到这里的异或运算也可以变更为加法运算。
本发明提出一种快速哈希采样方法,可以将需要提取特征值的集合缩小到很小的规模。这里可采样方法必须要求是固定统一的采样的方法,这样才能保障对原始相似的数据指纹集,经过采样后的指纹集仍然能保持很高的相似度。这里建议可能的采样方法例如:判断fpi的前2个比特位是否为零,如果为零,则进入采样集合;那么按照上述采样策略的缩小规模比就是4:1;如果需要进一步缩小规模,则可以扩大需要判断的比特位。
本发明提供的一种基于统一采样的快速相似数据检测方法,如果两个数据块很相似,那么有很多滑动窗口内容就是相同的,这就意味着很多滑动窗口指纹值也是相同的;进一步推导:如果采用统一的采样方法,那么意味着采样后的指纹值也还是相同的;换而言之,相同的指纹会被相同的采样方法选中,输出到后续的采样指纹集合中。
本发明提供的一种基于统一采样的快速相似数据检测方法,步骤A简化了滑动窗口指纹计算,相对于传统的Rabin计算数倍地提升了速度;步骤B的运算操作,通过统一采样操作,快速选择符合要求的哈希值即可以大幅度减少后续的线性变换、特征值判断、超级特征值打包等计算;步骤A和步骤B的结合大大地加速了超级特征值计算的过程,消除了传统相似性计算里面的主要瓶颈。
本发明提供的一种基于统一采样的快速相似数据检测方法,在保持原有的相似性检测效率的前提下,通过快速滑动哈希计算,以及通过统一采样方法大幅度地减少了需要线性变换的指纹数量,从而简化了后面的提取特征值和超级特征值的计算,最终大幅度提升相似数据检测速度,以实现面向大规模存储系统的快速高效的相似数据检测效果。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (5)

1.一种基于统一采样的快速相似数据检测方法,其特征在于,包括以下步骤:
A、基于滑动窗口算法快速计算哈希集合;在步骤A中,基于快速滑动哈希算法,计算出得滑动指纹集{F1,F2,……,FN};
B、对计算得出的哈希集合进行快速统一采样;步骤B中的快速统一采样为:统一判断步骤A计算出来的当前滑动窗口的指纹值fpi的前X1个比特位或者是后X1个比特位或者是中间X1个比特位是否为X2,如果为X2,则进入采样集合,X1、X2均为设定值;采样得出新的哈希集合{Z1,Z2,……,ZX},该集合的成员数远远小于原始滑动指纹集大小N;
其中,
在步骤B后,进行以下过程:基于采样后的哈希集合,再提取特征值和超级特征值用于相似性匹配查找;
还包括以下步骤:
C、对采样后的哈希集合,进行M次线性变换,获得M个新的集合,并基于计算最大值原则,每个集合提取出一个特征值;
D、对特征值进行超级特征值打包,并向已经存在的超级特征值索引库里面进行查找匹配;
E、如果有一个超级特征值匹配,则认为数据块相似,进一步差量压缩编码处理以及存储;对于未匹配的数据块,则将相应的数据块存入存储系统,同时将对应的超级特征值写入超级特征值索引库。
2.根据权利要求1所述的基于统一采样的快速相似数据检测方法,其特征在于:在步骤A中,快速滑动哈希算法为:通过一个32/64位的整形数数组放大数据字节内容,实现哈希散列的效果,同时满足滑动哈希算法要求,即当前窗口的哈希值可以基于上个窗口哈希值快速算出。
3.根据权利要求2所述的基于统一采样的快速相似数据检测方法,其特征在于:快速滑动哈希算法的核心计算策略如下:fpi=(fpi-1<<1)^G[b],其中,G指一个预先算好的固定随机数组,可以对每个字节映射到一个很大随机数;fpi-1就是当前滑动窗口的上一个窗口的指纹值;b就是当前滑动窗口的最后一个字节的内容。
4.根据权利要求1所述的基于统一采样的快速相似数据检测方法,其特征在于:X1设定为1或者2或者3或者4。
5.根据权利要求1所述的基于统一采样的快速相似数据检测方法,其特征在于:在步骤C中,每个集合提取出一个特征值,即最大值或者最小值,特征值的计算公式如下,
Figure FDA0003138831500000021
其中,特征值又称相似性特征值,Featurei指的就是相似性特征值,FastHash(Wj)表示滑动窗口Wj的FastHash指纹,mi和ai表示预定的随机数;在这里数据块的长度为N,所以该数据块有N个滑动窗口,相似性特征值Featurei就是在这N个滑动窗口的FastHash指纹中取哈希最大值,不同预定值mi和ai会产生不同相似性特征值;
在步骤D中,超级特征值的计算公式如下,
SuperFearturek=Hash(Feature1,Feature2,...),
其中,SuperFeaturek指的是超级特征值。
CN201910243356.0A 2019-03-28 2019-03-28 一种基于统一采样的快速相似数据检测方法 Active CN110083743B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910243356.0A CN110083743B (zh) 2019-03-28 2019-03-28 一种基于统一采样的快速相似数据检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910243356.0A CN110083743B (zh) 2019-03-28 2019-03-28 一种基于统一采样的快速相似数据检测方法

Publications (2)

Publication Number Publication Date
CN110083743A CN110083743A (zh) 2019-08-02
CN110083743B true CN110083743B (zh) 2021-11-16

Family

ID=67413817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910243356.0A Active CN110083743B (zh) 2019-03-28 2019-03-28 一种基于统一采样的快速相似数据检测方法

Country Status (1)

Country Link
CN (1) CN110083743B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110888918A (zh) * 2019-11-25 2020-03-17 湖北工业大学 相似数据检测方法及装置、计算机设备和存储介质
CN111835361B (zh) * 2020-07-17 2024-04-30 国网上海市电力公司 一种数据相似性检测方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315652A (zh) * 2008-07-17 2008-12-03 张小粤 医院内部的临床医学信息系统的构成及其信息查询方法
CN101354728A (zh) * 2008-09-26 2009-01-28 中国传媒大学 一种基于区间权值的相似性度量方法
CN102323958A (zh) * 2011-10-27 2012-01-18 上海文广互动电视有限公司 重复数据删除方法
CN105515586A (zh) * 2015-12-14 2016-04-20 华中科技大学 一种快速差量压缩方法
CN107682016A (zh) * 2017-09-26 2018-02-09 深信服科技股份有限公司 一种数据压缩方法、数据解压方法及相关系统

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7617231B2 (en) * 2005-12-07 2009-11-10 Electronics And Telecommunications Research Institute Data hashing method, data processing method, and data processing system using similarity-based hashing algorithm
US7664744B2 (en) * 2006-07-14 2010-02-16 Yahoo! Inc. Query categorizer
US7831538B2 (en) * 2007-05-23 2010-11-09 Nec Laboratories America, Inc. Evolutionary spectral clustering by incorporating temporal smoothness
CN101546320B (zh) * 2008-03-27 2011-11-16 北京兴宇中科科技开发股份有限公司 一种基于滑动窗口的数据差异分析方法
CN101464910B (zh) * 2009-01-12 2011-08-17 浙江大学 基于数据相似的平衡聚类压缩方法
CN101706825B (zh) * 2009-12-10 2011-04-20 华中科技大学 一种基于文件内容类型的重复数据删除方法
US9230063B2 (en) * 2011-01-05 2016-01-05 The Board Of Trustees Of The University Of Illinois Automated prostate tissue referencing for cancer detection and diagnosis
CN102081707B (zh) * 2011-01-07 2013-04-17 深圳大学 一种dna序列数据压缩和解压系统及方法
CN102176208B (zh) * 2011-02-28 2012-12-26 西安电子科技大学 基于三维空时特征的鲁棒视频指纹方法
CN102324102B (zh) * 2011-10-08 2014-04-16 北京航空航天大学 一种图像场景空洞区域结构和纹理信息自动填补方法
CN102722583A (zh) * 2012-06-07 2012-10-10 无锡众志和达存储技术有限公司 重复数据删除硬件加速装置和方法
CN102801557B (zh) * 2012-07-27 2016-08-10 中国电力科学研究院 一种提高变电站网络采样可靠性的系统方法
CN102831222B (zh) * 2012-08-24 2014-12-31 华中科技大学 一种基于重复数据删除的差量压缩方法
CN103324699B (zh) * 2013-06-08 2016-03-02 西安交通大学 一种适应大数据应用的快速重复数据删除方法
CN104063318A (zh) * 2014-06-24 2014-09-24 湘潭大学 Android应用相似性快速检测方法
CN104394091B (zh) * 2014-12-04 2017-07-18 西南科技大学 一种基于均匀采样的网络冗余流量识别方法
CN105989061B (zh) * 2015-02-09 2019-11-26 中国科学院信息工程研究所 一种滑动窗口下多维数据重复检测快速索引方法
CN107885705B (zh) * 2017-10-09 2020-12-15 中国科学院信息工程研究所 一种高效可扩展的安全的文档相似性计算方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315652A (zh) * 2008-07-17 2008-12-03 张小粤 医院内部的临床医学信息系统的构成及其信息查询方法
CN101354728A (zh) * 2008-09-26 2009-01-28 中国传媒大学 一种基于区间权值的相似性度量方法
CN102323958A (zh) * 2011-10-27 2012-01-18 上海文广互动电视有限公司 重复数据删除方法
CN105515586A (zh) * 2015-12-14 2016-04-20 华中科技大学 一种快速差量压缩方法
CN107682016A (zh) * 2017-09-26 2018-02-09 深信服科技股份有限公司 一种数据压缩方法、数据解压方法及相关系统

Also Published As

Publication number Publication date
CN110083743A (zh) 2019-08-02

Similar Documents

Publication Publication Date Title
US11947494B2 (en) Organizing prime data elements using a tree data structure
EP3238344B1 (en) Lossless reduction of data by deriving data from prime data elements resident in a content-associative sieve
US8543555B2 (en) Dictionary for data deduplication
US20120303595A1 (en) Data restoration method for data de-duplication
US20130103655A1 (en) Multi-level database compression
US20110125722A1 (en) Methods and apparatus for efficient compression and deduplication
US11363296B2 (en) Lossless reduction of data by using a prime data sieve and performing multidimensional search and content-associative retrieval on data that has been losslessly reduced using a prime data sieve
US20150026139A1 (en) Scalable mechanism for detection of commonality in a deduplicated data set
CN110083743B (zh) 一种基于统一采样的快速相似数据检测方法
CN106611035A (zh) 一种云存储中重复数据删除的检索算法
US20230198549A1 (en) Exploiting locality of prime data for efficient retrieval of data that has been losslessly reduced using a prime data sieve
CN111104555A (zh) 基于注意力机制的视频哈希检索方法
Sirén Burrows-Wheeler transform for terabases
CN112527948A (zh) 基于句子级索引的数据实时去重方法及系统
WO2017100619A1 (en) Reduction of audio data and data stored on a block processing storage system
WO2016205209A1 (en) Performing multidimensional search, content-associative retrieval, and keyword-based search and retrieval on data that has been losslessly reduced using a prime data sieve
US20220156233A1 (en) Systems and methods for sketch computation
WO2021082926A1 (zh) 一种数据压缩的方法及装置
CN105515586B (zh) 一种快速差量压缩方法
US20220100718A1 (en) Systems, methods and devices for eliminating duplicates and value redundancy in computer memories
WO2020123710A1 (en) Efficient retrieval of data that has been losslessly reduced using a prime data sieve
Li et al. Erasing-based lossless compression method for streaming floating-point time series
CN110516693A (zh) 一种基于特征值局部性的相似数据检测方法
Ko et al. Stride static chunking algorithm for deduplication system
US11422975B2 (en) Compressing data using deduplication-like methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant