CN107273536A - 一种重复数据确定方法、系统及分布式存储系统 - Google Patents

一种重复数据确定方法、系统及分布式存储系统 Download PDF

Info

Publication number
CN107273536A
CN107273536A CN201710521604.4A CN201710521604A CN107273536A CN 107273536 A CN107273536 A CN 107273536A CN 201710521604 A CN201710521604 A CN 201710521604A CN 107273536 A CN107273536 A CN 107273536A
Authority
CN
China
Prior art keywords
data
fingerprint
dictionary
distributed memory
memory system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710521604.4A
Other languages
English (en)
Inventor
张子奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710521604.4A priority Critical patent/CN107273536A/zh
Publication of CN107273536A publication Critical patent/CN107273536A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • G06F16/24535Query rewriting; Transformation of sub-queries or views
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本申请公开了一种重复数据确定方法,应用于分布式存储系统,包括:判断目标写入数据的数据指纹是否存在于预设的数据指纹字典中;其中,数据指纹字典为用于存储特定数据指纹的数据库,特定数据指纹为分布式存储系统中满足预设数据筛选条件的数据的指纹;若目标写入数据的数据指纹存在于数据指纹字典中,则将目标写入数据确定为重复数据。本申请的数据指纹字典中所存储的数据指纹是经过预设数据筛选条件筛选的数据的指纹,也即,上述数据指纹字典中保存的数据指纹仅仅是存储系统中经过筛选后的部分数据的指纹,从而使得在指纹比对过程中,只需将目标写入数据的数据指纹与部分数据的指纹进行比对,从而大幅提升了重复数据的确定速度。

Description

一种重复数据确定方法、系统及分布式存储系统
技术领域
本发明涉及数据优化领域,特别涉及一种重复数据确定方法、系统及分布式存储系统。
背景技术
在数据备份领域,存储系统中不可避免的存在着大量的冗余数据,为了解决这个问题,节省更多空间,重复数据删除(data deduplication)技术是该领域的一种常用手段,它的目的是旨在减少存储系统中使用的存储容量。它的工作方式是在某个时间周期内查找不同文件中不同位置的重复可变大小数据块,重复的数据块用指示符取代。高度冗余的数据集从数据重复删除技术的获益极大,用户可以实现10:1至50:1的缩减比。在目前常见的重复数据删除技术当中,一般是先对数据块进行哈希(hash)运算得到存储系统中数据块的数据指纹,然后与预设的数据指纹库进行对比,由于上述数据指纹库中保存的数据指纹是存储系统中所有数据的数据指纹,所以导致上述指纹比对过程中通常需要展开大量的数据指纹作对比,从而导致存储系统中重复数据的确定速度非常慢,效率较低,由此进一步导致数据读写时间较长。
综上所述可以看出,如何进一步提升重复数据的确定速度是目前亟待解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种重复数据确定方法、系统及分布式存储系统,可以快速确定存储系统当中的重复数据。其具体方案如下:
一种重复数据确定方法,应用于分布式存储系统,包括:
判断目标写入数据的数据指纹是否存在于预设的数据指纹字典中;其中,所述数据指纹字典为用于存储特定数据指纹的数据库,所述特定数据指纹为所述分布式存储系统中满足预设数据筛选条件的数据的指纹;
若所述目标写入数据的数据指纹存在于所述数据指纹字典中,则将所述目标写入数据确定为重复数据。
优选的,所述预设数据筛选条件为用于对所述分布式存储系统中数据类型与预设类型相一致的数据进行筛选的筛选条件。
优选的,所述预设数据筛选条件为用于从所述分布式存储系统中对被访问频率大于预设频率阈值的数据进行筛选的筛选条件。
优选的,所述预设数据筛选条件为用于从所述分布式存储系统中对数据安全系数大于预设系数阈值的数据进行筛选的筛选条件。
优选的,还包括:
将所述数据指纹字典预先存储于所述分布式存储系统的内存中。
相应的,本发明还公开了一种重复数据确定系统,应用于分布式存储系统,包括:
数据判断模块,用于判断目标写入数据的数据指纹是否存在于预设的数据指纹字典中;其中,所述数据指纹字典为用于存储特定数据指纹的数据库,所述特定数据指纹为所述分布式存储系统中满足预设数据筛选条件的数据的指纹;
数据确定模块,用于若所述目标写入数据的数据指纹存在于所述数据指纹字典中,则将所述目标写入数据确定为重复数据。
优选的,还包括:
第一字典创建模块,用于创建存储第一类特定数据指纹的数据指纹字典;
其中,所述第一类特定数据指纹为所述分布式存储系统中满足第一预设数据筛选条件的数据指纹,并且,所述第一预设数据筛选条件为用于对所述分布式存储系统中数据类型与预设类型相一致的数据进行筛选的筛选条件;
第一筛选单元,用于对所述分布式存储系统中数据类型与预设类型相一致的数据进行筛选。
优选的,还包括:
第二字典创建模块,用于创建存储第二类特定数据指纹的数据指纹字典;
其中,所述第二类特定数据指纹为所述分布式存储系统中满足第二预设数据筛选条件的数据指纹,并且,所述第二预设数据筛选条件为用于对所述分布式存储系统中对被访问频率大于预设频率阈值的数据进行筛选的筛选条件。
第二筛选单元,用于对所述分布式存储系统中对被访问频率大于预设频率阈值的数据进行筛选。
优选的,还包括:
第三字典创建模块,用于创建存储第三类特定数据指纹的数据指纹字典;
其中,所述第三类特定数据指纹为所述分布式存储系统中满足第三预设数据筛选条件的数据指纹,并且,所述第三预设数据筛选条件为用于对所述分布式存储系统中对数据安全系数大于预设系数阈值的数据进行筛选的筛选条件。
第三筛选单元,用于对所述分布式存储系统中对数据安全系数大于预设系数阈值的数据进行筛选。
优选的,还包括:
数据存储模块,用于将所述数据指纹字典预先存储于所述分布式存储系统的内存中。
进一步的,本发明还公开了一种分布式存储系统,包括前述公开的重复数据确定系统。
本发明中,重复数据确定方法,应用于分布式存储系统,包括:判断目标写入数据的数据指纹是否存在于预设的数据指纹字典中;其中,数据指纹字典为用于存储特定数据指纹的数据库,特定数据指纹为分布式存储系统中满足预设数据筛选条件的数据的指纹;若目标写入数据的数据指纹存在于数据指纹字典中,则将目标写入数据确定为重复数据。由上可知,上述预设的数据指纹字典中所存储的数据指纹是经过预设数据筛选条件筛选的数据的指纹,也即,上述数据指纹字典中保存的数据指纹仅仅是存储系统中经过筛选后的部分数据的指纹,从而使得在上述指纹比对过程中,只需将目标写入数据的数据指纹与部分数据的指纹进行比对,而无需与存储系统中的全部数据的指纹进行比对,从而大幅提升了重复数据的确定速度,提高了重复数据的确定效率,有利于提升对数据读写请求的响应速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例一公开的一种重复数据确定方法流程图;
图2为本发明实施例二公开的一种重复数据确定方法流程图;
图3为本发明实施例公开的一种重复数据确定系统流程图;
图4为本发明中数据指纹字典应用示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例一公开了一种重复数据确定方法,参见图1所示,该方法包括:
步骤S11:判断目标写入数据的数据指纹是否存在于预设的数据指纹字典中;其中,数据指纹字典为用于存储特定数据指纹的数据库,特定数据指纹为分布式存储系统中满足预设数据筛选条件的数据的指纹;
在本实施例中,预设的数据指纹字典为存储特定数据指纹的数据库,可以理解的是,特定数据指纹中的数据指纹是通过预设的筛选条件筛选出来的数据,包括但不限于,形如全0、全1、全A的带有固定属性的数据;也可以是根据用户的被访问频率或者是数据的安全性能筛选出来的数据。
而且,在本实施例中,预设的数据指纹字典中的数据可以是上述特定数据中的任意一类或者是几类,此处不作限定。
步骤S12:若目标写入数据的数据指纹存在于数据指纹字典中,则将目标写入数据确定为重复数据。
可以理解的是,通过将目标写入数据的数据指纹与数据指纹字典中的数据指纹作对比,可以确定出目标写入数据的数据指纹是否存在于数据指纹字典中,如果存在,则说明目标写入数据为重复数据。
可见,本发明首先在存储系统当中预设数据指纹字典,在预设的数据指纹字典中存储特定数据指纹,当目标写入数据写入系统当中时,将目标写入数据对应的数据指纹与数据指纹字典中的数据指纹作对比,如果目标写入数据对应的数据指纹存在于数据指纹字典中,然后将该目标写入数据确定为重复数据。由上可知,上述预设的数据指纹字典中所存储的数据指纹是经过预设数据筛选条件筛选的数据的指纹,也即,上述数据指纹字典中保存的数据指纹仅仅是存储系统中经过筛选后的部分数据的指纹,从而使得在上述指纹比对过程中,只需将目标写入数据的数据指纹与部分数据的指纹进行比对,而无需与存储系统中的全部数据的指纹进行比对,从而大幅提升了重复数据的确定速度,提高了重复数据的确定效率,有利于提升对数据读写请求的响应速度。
本发明实施例二公开了一种具体的重复数据确定方法,参见图2所示,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。具体的:
步骤S21:在分布式存储系统当中创建预设的数据指纹字典;
在本实施例中,首先在分布式存储系统当中创建预设的数据指纹字典,是为了在数据指纹字典中存储特定数据的数据指纹。
步骤S22:判断目标写入数据的数据指纹是否存在于预设的数据指纹字典中;其中,数据指纹字典为用于存储特定数据指纹的数据库,特定数据指纹为分布式存储系统中满足预设数据筛选条件的数据的指纹;
需要说明的是,数据指纹字典是预设的一个用户存储特定数据指纹的数据库,并且该数据库是根据预设的数据筛选条件筛选出来的数据的数据库。
可以理解的是,这样的数据筛选条件可以为一个或若干,也即,通过一个或若干个数据筛选条件可以筛选出具有一类或者是几类的数据集合。也即通过这样的方法,所建立的数据指纹字典可以对应的包括有一种类型的数据集合,也可以包括有几种类型的数据集合。
具体的,数据筛选条件可以是对分布式存储系统当中的数据类型做限定,通过这样的方式来筛选数据;例如:通过与预设类型相一致的数据进行筛选,其中,预设数据类型,包括但不限于,形如全0、全1、全A的具有特殊形式的数据,或者是根据用户的习惯设置一些用户常用数据的数据指纹存储于数据指纹字典中;
进一步的,数据筛选条件还可以是对分布式存储系统中数据的被访问频率作限定,来相应的得到预设的数据指纹字典,也即:当数据的被访问频率大于预设频率阈值时,可以把数据被访问频率大于预设频率阈值的数据筛选出来,然后将该类数据的数据指纹存储在数据指纹字典中。
更进一步的,数据筛选条件还可以是对分布式存储系统中数据的安全数作限定,来得到预设的数据指纹字典,也即:当数据的安全系数大于预设系数阈值时,可以把数据安全系数大于预设系数阈值的数据筛选出来,然后将该类数据的数据指纹存储在数据指纹字典中。
当然,更进一步的,预设的数据指纹字典可以是根据上述的任意一条数据筛选条件,筛选出来的数据的数据指纹字典。也可以是根据上述几条数据筛选条件对应筛选出来的数据的数据指纹字典,此处不作限定。
步骤S23:若目标写入数据的数据指纹存在于数据指纹字典中,则将目标写入数据确定为重复数据。
可以理解的是,通过将目标写入数据的数据指纹与数据指纹字典中的数据指纹作对比,可以确定出目标写入数据的数据指纹是否存在于数据指纹字典中,如果存在,则说明目标写入数据为重复数据。
优选的,将数据指纹字典预先存储于分布式存储系统的内存中。
可以理解的是,将数据指纹字典预先存储于分布式存储系统的内存中,将会比将数据指纹字典预先存储于分布式存储系统中的其他位置,提高数据的读写速度,从而更进一步的提升重复数据的确定速度。
优选的,还可以将数据指纹字典预先存储于分布式存储系统中的各个节点上。
可以理解的是,通过这样的方法,可以保证分布式存储系统中各个节点数据的一致性,这样可以避免因某些异常因素,导致分布式存储系统中单一节点出现问题,而出现一些用户体验不良好情况的发生。
相应的,本发明实施例还公开了一种重复数据确定系统,参见图3所示,该系统包括:
数据判断模块31,用于判断目标写入数据的数据指纹是否存在于预设的数据指纹字典中;其中,数据指纹字典为用于存储特定数据指纹的数据库,特定数据指纹为分布式存储系统中满足预设数据筛选条件的数据的指纹;
数据确定模块32,用于当目标写入数据的数据指纹存在于数据指纹字典中,则将目标写入数据确定为重复数据。
优选的,该重复数据确定系统,还包括:
第一字典创建模块,用于创建存储第一类特定数据指纹的数据指纹字典;
其中,第一类特定数据指纹为分布式存储系统中满足第一预设数据筛选条件的数据指纹,并且,第一预设数据筛选条件为用于对分布式存储系统中数据类型与预设类型相一致的数据进行筛选的筛选条件;
具体的,第一字典创建模块包括第一筛选单元;其中,
第一筛选单元,用于对分布式存储系统中数据类型与预设类型相一致的数据进行筛选。
优选的,该重复数据确定系统,还包括:
第二字典创建模,用于创建存储第二类特定数据指纹的数据指纹字典;
其中,第二类特定数据指纹为分布式存储系统中满足第二预设数据筛选条件的数据指纹,并且,第二预设数据筛选条件为用于对分布式存储系统中对被访问频率大于预设频率阈值的数据进行筛选的筛选条件。
具体的,第二字典创建模块包括第二筛选单元;其中,
第二筛选单元,用于对分布式存储系统中对被访问频率大于预设频率阈值的数据进行筛选。
优选的,该重复数据确定系统,还包括:
第三字典创建模块,用于创建存储第三类特定数据指纹的数据指纹字典;
其中,第三类特定数据指纹为分布式存储系统中满足第三预设数据筛选条件的数据指纹,并且,第三预设数据筛选条件为用于对分布式存储系统中对数据安全系统大于预设系数阈值的数据进行筛选的筛选条件。
具体的,第三字典创建模块包括第三筛选单元;其中,
第三筛选单元,用于对分布式存储系统中对数据安全系数大于预设系数阈值的数据进行筛选。
优选的,该重复数据确定系统,还包括:
数据存储模块,用于将数据指纹字典预先存储于分布式存储系统的内存中。
关于上述各个模块和各个单元更加详细的工作过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
相应的,本发明实施例还公开一种分布式存储系统,包括上述的重复数据确定系统。
可以理解的是,本申请实施例所提供的分布式存储系统,会加快分布式存储系统中重复数据的确定过程,提高系统存储空间的利用率,进而提高用户体验。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种重复数据确定方法、系统及分布式存储系统.进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (11)

1.一种重复数据确定方法,其特征在于,应用于分布式存储系统,包括:
判断目标写入数据的数据指纹是否存在于预设的数据指纹字典中;其中,所述数据指纹字典为用于存储特定数据指纹的数据库,所述特定数据指纹为所述分布式存储系统中满足预设数据筛选条件的数据的指纹;
若所述目标写入数据的数据指纹存在于所述数据指纹字典中,则将所述目标写入数据确定为重复数据。
2.根据权利要求1所述的方法,其特征在于,所述预设数据筛选条件为用于对所述分布式存储系统中数据类型与预设类型相一致的数据进行筛选的筛选条件。
3.根据权利要求1所述的方法,其特征在于,所述预设数据筛选条件为用于从所述分布式存储系统中对被访问频率大于预设频率阈值的数据进行筛选的筛选条件。
4.根据权利要求1所述的方法,其特征在于,所述预设数据筛选条件为用于从所述分布式存储系统中对数据安全系数大于预设系数阈值的数据进行筛选的筛选条件。
5.根据权利要求1至4任一项所述的方法,其特征在于,还包括:
将所述数据指纹字典预先存储于所述分布式存储系统的内存中。
6.一种重复数据确定系统,其特征在于,应用于分布式存储系统,包括:
数据判断模块,用于判断目标写入数据的数据指纹是否存在于预设的数据指纹字典中;其中,所述数据指纹字典为用于存储特定数据指纹的数据库,所述特定数据指纹为所述分布式存储系统中满足预设数据筛选条件的数据的指纹。
数据确定模块,用于若所述目标写入数据的数据指纹存在于所述数据指纹字典中,则将所述目标写入数据确定为重复数据。
7.根据权利要求6所述的系统,其特征在于,还包括:
第一字典创建模块,用于创建存储第一类特定数据指纹的数据指纹字典;
其中,所述第一类特定数据指纹为所述分布式存储系统中满足第一预设数据筛选条件的数据指纹,并且,所述第一预设数据筛选条件为用于对所述分布式存储系统中数据类型与预设类型相一致的数据进行筛选的筛选条件;
第一筛选单元,用于对所述分布式存储系统中数据类型与预设类型相一致的数据进行筛选。
8.根据权利要求6所述的系统,其特征在于,还包括:
第二字典创建模块,用于创建存储第二类特定数据指纹的数据指纹字典;
其中,所述第二类特定数据指纹为所述分布式存储系统中满足第二预设数据筛选条件的数据指纹,并且,所述第二预设数据筛选条件为用于对所述分布式存储系统中对被访问频率大于预设频率阈值的数据进行筛选的筛选条件。
第二筛选单元,用于对所述分布式存储系统中对被访问频率大于预设频率阈值的数据进行筛选。
9.根据权利要求6所述的系统,其特征在于,还包括:
第三字典创建模块,用于创建存储第三类特定数据指纹的数据指纹字典;
其中,所述第三类特定数据指纹为所述分布式存储系统中满足第三预设数据筛选条件的数据指纹,并且,所述第三预设数据筛选条件为用于对所述分布式存储系统中对数据安全系数大于预设系数阈值的数据进行筛选的筛选条件。
第三筛选单元,用于对所述分布式存储系统中对数据安全系数大于预设系数阈值的数据进行筛选。
10.根据权利要求6至9任一项所述的系统,其特征在于,还包括:
数据存储模块,用于将所述数据指纹字典预先存储于所述分布式存储系统的内存中。
11.一种分布式存储系统,其特征在于,包括如权利要求6至10任一项所述的重复数据确定系统。
CN201710521604.4A 2017-06-30 2017-06-30 一种重复数据确定方法、系统及分布式存储系统 Pending CN107273536A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710521604.4A CN107273536A (zh) 2017-06-30 2017-06-30 一种重复数据确定方法、系统及分布式存储系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710521604.4A CN107273536A (zh) 2017-06-30 2017-06-30 一种重复数据确定方法、系统及分布式存储系统

Publications (1)

Publication Number Publication Date
CN107273536A true CN107273536A (zh) 2017-10-20

Family

ID=60070519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710521604.4A Pending CN107273536A (zh) 2017-06-30 2017-06-30 一种重复数据确定方法、系统及分布式存储系统

Country Status (1)

Country Link
CN (1) CN107273536A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102222085A (zh) * 2011-05-17 2011-10-19 华中科技大学 一种基于相似性与局部性结合的重复数据删除方法
CN105354246A (zh) * 2015-10-13 2016-02-24 华南理工大学 一种基于分布式内存计算的数据去重方法
US9367397B1 (en) * 2011-12-20 2016-06-14 Emc Corporation Recovering data lost in data de-duplication system
CN105677238A (zh) * 2015-12-28 2016-06-15 国云科技股份有限公司 一种基于分布式存储重复数据删除的虚拟机系统盘的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102222085A (zh) * 2011-05-17 2011-10-19 华中科技大学 一种基于相似性与局部性结合的重复数据删除方法
US9367397B1 (en) * 2011-12-20 2016-06-14 Emc Corporation Recovering data lost in data de-duplication system
CN105354246A (zh) * 2015-10-13 2016-02-24 华南理工大学 一种基于分布式内存计算的数据去重方法
CN105677238A (zh) * 2015-12-28 2016-06-15 国云科技股份有限公司 一种基于分布式存储重复数据删除的虚拟机系统盘的方法

Similar Documents

Publication Publication Date Title
CN105447059B (zh) 一种数据处理方法及装置
US9355112B1 (en) Optimizing compression based on data activity
CN103488709B (zh) 一种索引建立方法及系统、检索方法及系统
US20140089318A1 (en) Metadata querying method and apparatus
CN104077405B (zh) 时序类型数据存取方法
EP2608070A1 (en) Hybrid database table stored as both row and column store
EP2608071A1 (en) Hybrid database table stored as both row and column store
EP2608072A1 (en) Hybrid database table stored as both row and column store
CN104881369B (zh) 面向混合存储系统的低内存开销热点数据识别方法
CN109086141B (zh) 内存管理方法和装置以及计算机可读存储介质
CN104090852A (zh) 管理混合缓存的方法及设备
TW201415262A (zh) 基於Lucene的倒排索引系統構建、資料處理方法及裝置
US10725907B2 (en) Information processing apparatus for specifying data region of garbage collection, information processing system and information processing method
CN103914483A (zh) 文件存储方法、装置及文件读取方法、装置
CN110427364A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN109542339B (zh) 数据分层访问方法、装置、多层存储设备和存储介质
CN105577719A (zh) 一种数据压缩方法和装置
KR20150121505A (ko) 데이터 중복 제거 방법 및 장치
CN111930924A (zh) 基于布隆过滤器的数据查重系统及方法
CN108182244A (zh) 一种基于多层次列式存储结构的时序数据存储方法
CN107368545A (zh) 一种基于MerkleTree变形算法的去重方法及装置
CN104077241A (zh) 缓存淘汰算法切换处理方法及装置
CN107273536A (zh) 一种重复数据确定方法、系统及分布式存储系统
CN103645995B (zh) 写数据的方法及装置
CN106796588A (zh) 索引表的更新方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171020