CN113704260B - 一种基于改进lsm树结构的数据存储方法及系统 - Google Patents

一种基于改进lsm树结构的数据存储方法及系统 Download PDF

Info

Publication number
CN113704260B
CN113704260B CN202110983267.7A CN202110983267A CN113704260B CN 113704260 B CN113704260 B CN 113704260B CN 202110983267 A CN202110983267 A CN 202110983267A CN 113704260 B CN113704260 B CN 113704260B
Authority
CN
China
Prior art keywords
key
sstable
data
file
value pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110983267.7A
Other languages
English (en)
Other versions
CN113704260A (zh
Inventor
林清音
陈志广
卢宇彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202110983267.7A priority Critical patent/CN113704260B/zh
Publication of CN113704260A publication Critical patent/CN113704260A/zh
Application granted granted Critical
Publication of CN113704260B publication Critical patent/CN113704260B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于改进LSM树结构的数据存储方法及系统,该方法包括:获响应于用户创建数据库的操作,系统根据用户指定容量,创建更新表并设置阈值;响应于用户向数据库中插入键值对,系统将键值对记录到Memtable,将键记录到更新表判断到更新表未达到预设阈值,则插入过程结束;判断到更新表达到预设阈值,选择符合预设条件的SStable触发特殊压缩操作。该系统包括:预创建模块和存储模块。通过使用本发明,降低LSM‑Tree数据存储系统的读请求尾延迟。本发明作为一种基于改进LSM树结构的数据存储方法及系统,可广泛应用于数据存储领域。

Description

一种基于改进LSM树结构的数据存储方法及系统
技术领域
本发明涉及数据存储领域,尤其涉及一种基于改进LSM树结构的数据存储方法及系统。
背景技术
LSM-Tree(Log-Structured-Merge Tree)是一种日志结构合并树,是一种分层、有序、面向磁盘的数据存储结构。在传统基于LSM-Tree的数据存储系统中,所有对键的更新通过插入一个新的键值对来完成,旧的键值对仍然保留在系统中,成为无效键值对,且没有识别频繁访问的键值对(即热数据)的功能。在实际应用中,某些键是经常被更新或是经常被读取的,这就导致系统中可能存在大量的无效键值对,且若经常被读取的键值对不在缓存中,要花费多次磁盘I/O才能读取,从而导致了较高的尾延迟。
发明内容
为了解决上述技术问题,本发明的目的是提供一种基于改进LSM树结构的数据存储方法及系统,本发明在传统的LSM-Tree数据存储系统中,加入了记录最新更新的键以及识别热数据的功能,并且在压缩过程中对无效键值对和热数据进行处理,来降低读请求尾延迟。
本发明所采用的第一技术方案是:一种基于改进LSM树结构的数据存储方法,包括以下步骤:
响应于用户创建数据库的操作,系统根据用户指定容量,创建更新表并设置阈值,同时创建热数据记录表;
响应于用户向数据库中插入键值对,系统将键值对记录到Memtable,将键记录到更新表;
判断到更新表未达到预设阈值,则插入过程结束;
判断到更新表达到预设阈值,选择符合预设条件的SStable触发特殊压缩操作。
进一步,还包括查询步骤:
响应于用户向数据库发起查询,查找该键值对并将对应的键数据添加到热数据记录表。
进一步,改进LSM树结构包括Memtable、更新表、热数据记录表和SStable。
进一步,所述响应于用户向数据库中插入键值对,系统将键值对记录到Memtable,将键记录到更新表这一步骤还包括:
当Memtable记录的键值对写满,将Memtable记录的键值转为SStable;
判断到SStable的数量达到预设值,触发普通压缩操作。
进一步,所述判断到SStable的数量达到预设值,触发普通压缩操作这一步骤,其具体包括:
根据所有SSTable生成一个总体的迭代器,依次访问每个键值对;
判断到当前键是首次出现,保留并记录该键;
判断到当前键不是首次出现,表示该键为旧数据,标记为drop;
将没有被标记为drop的键值对写入新的SSTable文件并保存到下一层次中;
迭代完成后将旧的SSTable文件删除。
进一步,所述预设条件的SStable具体包括:
构建旧数据分割线;
将分割线所在的层次记为Ld,从Ld的下一层Ld+1开始,逐层读取每个SSTable文件的元数据;
根据元数据中的键范围与更新表的最大键和最小键作比较,并判断有无范围交叉;
判断到有范围交叉,计算该SSTable文件中的无效键占比;
判断到该SSTable文件中的无效键占比大于预设值,选择该SStable文件进行压缩。
进一步,所述无效键占比的计算公式如下:
上式中,ratio表示无效键值比,Hk表示更新表中的键命中该文件的布隆过滤器的数量,Nk表示该文件包含的键的总数量。
进一步,所述特殊压缩操作的具体步骤包括:
将该SStable文件所在的层次记为Lc,从Lc的下一层次Lc+1开始,选择与该SSTable有键范围交叉的文件;
为该SStable文件以及选中的所有SSTable文件生成一个总体迭代器;
依次迭代每个键值对并将键分为冷数据和热舒居,分别将冷数据和热数据保存到不同的SSTable文件;
将保存热数据的新SSTable文件写入Lc,保存冷数据的新SSTable文件写入Lc+1,删除此次压缩过程涉及的旧SSTable文件。
进一步,所述响应于用户向数据库发起查询,查找该键值对并将对应的键数据添加到热数据记录表这一步骤,其具体包括:
响应于用户向数据库发起查询,在memtable中查找该键值对;
判断到未能在memtable中查找到该键值对,在缓存模块中查找该键值对;
判断到未能在缓存模块中查找到该键值对,则查找SStable中的数据块;
查找到该键值对并将对应的键数据添加到热数据记录表。
本发明所采用的第二技术方案是:一种基于改进LSM树结构的数据存储系统,包括:
预创建模块,响应于用户创建数据库的操作,系统根据用户指定容量,创建更新表并设置阈值,同时创建热数据记录表;
存储模块,响应于用户向数据库中插入键值对,系统将键值对记录到Memtable,将键记录到更新表,判断到更新表未达到预设阈值,则插入过程结束,判断到更新表达到预设阈值,触发特殊压缩操作。
本发明方法及系统的有益效果是:本发明基于历史记录,减少了无效数据占用的存储空间,从而降低了尾延迟,并将热点数据集中起来,提高缓存模块的命中率,从而提升整体读性能。
附图说明
图1是本发明一种基于改进LSM树结构的数据存储方法的步骤流程图;
图2是本发明一种基于改进LSM树结构的数据存储系统的结构框图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
参照图1,本发明提供了一种基于改进LSM树结构的数据存储方法,该方法包括以下步骤:
响应于用户创建数据库的操作,系统根据用户指定容量,创建更新表并设置阈值,同时创建热数据记录表;
响应于用户向数据库中插入键值对,系统将键值对记录到Memtable,将键记录到更新表;
判断到更新表未达到预设阈值,则插入过程结束;
判断到更新表达到预设阈值,选择符合预设条件的SStable触发特殊压缩操作。
具体地,在每次打开或创建数据库时,该系统会根据用户指定的更新表容量,创建一个空的跳表作为更新表,并将更新表阈值设置为用户指定容量。同时,该系统还将创建一个热数据记录表,即一个计数布隆过滤器(Counting Bloom Filter,即CBF)。计数布隆过滤器与布隆过滤器类似,但为每个键的每个哈希值分配多个位(bit),来记录该键访问的次数。为了保证该计数布隆过滤器中记录的是热数据,在为某个键的计数加一时,系统会随机选取位图中的一个计数器进行减一操作。这种机制使得冷数据的计数大概率会被减少,热数据的计数就算在某次随机中被减少了也会因为频繁的访问而增加回来,从而达到了CBF中保存的冷数据较少的目的。
向数据库中插入键值对时,系统将键值对记录到memtable中,将键记录到更新表中。判断更新表是否达到阈值,若未达到阈值,则插入过程结束。若达到阈值,系统将根据更新表存储的所有键为更新表创建一个布隆过滤器,以便后续与SSTable中的键进行匹配。由于布隆过滤器存在误判,必须在跳表中真正查找到键才能证明该键的存在,而更新表采用跳表的数据结构是为了加快查找键的速度。此外,更新表容量由用户指定,若用户指定的容量较大,则内存开销较大,但后续清除的无效键值对会更多,相反,若用户指定的容量较小,后续清除的无效键值对数量则较少,但内存开销也较小。
进一步作为本方法的优选实施例,还包括查询步骤:
响应于用户向数据库发起查询,查找该键值对并将对应的键数据添加到热数据记录表。
具体地,向数据库发起查询时,首先会在memtable中查找,若没找到则查找缓存模块,若缓存中没有则查找位于磁盘中的SSTable中的数据块。当查找到该键值对时,将键数据添加到热数据记录表中,即为键计算k个哈希值,为每个哈希值对应的计数加1,同时随机选取1个计数器进行减一。
进一步作为本方法的优选实施例,改进LSM树结构包括Memtable、更新表、热数据记录表和SStable。
具体地,改进后的LSM树整体结构包括在内存中的Memtable、更新表和热数据记录表,以及在磁盘中的SStable。
进一步作为本方法的优选实施例,所述响应于用户向数据库中插入键值对,系统将键值对记录到Memtable,将键记录到更新表这一步骤还包括:
当Memtable记录的键值对写满,将Memtable记录的键值转为SStable;
判断到SStable的数量达到预设值,触发普通压缩操作。
具体地,随着插入键值对的增多,memtable写满,转化为不可变的memtable,系统将其向下刷(Flush)到磁盘中成为SSTable。随着SSTable数量的增加,会触发LSM-Tree内部的压缩操作,将新数据不断压入更深的层次中。为了使得后续清除无效键值对时不会误删有效键值对,本发明定义了一个旧数据分割线:该分割线所在次初始化为L0。记分割线当前所在层次为Li,若在更新表累积过程触发了从Li到Li+1的压缩操作,则分割线所在层次记为Li+1。当更新表重新开始累积时重置为L0。这样就确保了分割线以下的层次不包含最近更新的键。
随着更新表记录的键数量增多,达到阈值时,需要选择符合条件的SSTable,触发本发明定义的一种特殊的压缩操作,当压缩操作执行结束时会将更新表清空,重新开始记录最近更新键,同时旧数据分割线也重置为L0
进一步作为本方法优选实施例,判断到SStable的数量达到预设值,触发普通压缩操作这一步骤,其具体包括:
根据所有SSTable生成一个总体的迭代器,依次访问每个键值对;
判断到当前键是首次出现,保留并记录该键;
判断到当前键不是首次出现,表示该键为旧数据,标记为drop;
将没有被标记为drop的键值对写入新的SSTable文件并保存到下一层次中;
迭代完成后将旧的SSTable文件删除。
进一步作为本方法优选实施例,所述预设条件的SStable具体包括:
构建旧数据分割线;
将分割线所在的层次记为Ld,从Ld的下一层Ld+1开始,逐层读取每个SSTable文件的元数据;
根据元数据中的键范围与更新表的最大键和最小键作比较,并判断有无范围交叉;
判断到有范围交叉,计算该SSTable文件中的无效键占比;
判断到该SSTable文件中的无效键占比大于预设值,选择该SStable文件进行压缩。
选择SSTable的过程分为两步:①将分割线所在的层次记为Ld,从Ld的下一层Ld+1开始,逐层读取每个SSTable文件的元数据,元数据包含了保存在该文件中的最大键和最小键,将获得的键范围与更新表的最大键和最小键作比较,计算有无范围交叉。若无交叉,则跳过。若有交叉,则计算该文件中的无效键占比;②计算无效键所占的比例,即计算该SSTable中无效键占总的键数量的比例,使用更新表中的每个键去访问该SSTable的布隆过滤器,最终布隆过滤器命中的次数则可以被视为该SSTable包含的无效键数量,从而计算出无效键比值。若比值超过某个阈值,则可以认为该文件包含了大量的无效键值对,因此可以触发对该文件的压缩操作。
进一步作为本方法优选实施例,所述无效键占比的计算公式如下:
上式中,ratio表示无效键值比,Hk表示更新表中的键命中该文件的布隆过滤器的数量,Nk表示该文件包含的键的总数量。
进一步作为本方法优选实施例,述特殊压缩操作的具体步骤包括:
将该SStable文件所在的层次记为Lc,从Lc的下一层次Lc+1开始,选择与该SSTable有键范围交叉的文件;
为该SStable文件以及选中的所有SSTable文件生成一个总体迭代器;
依次迭代每个键值对并将键分为冷数据和热舒居,分别将冷数据和热数据保存到不同的SSTable文件;
具体地,依次迭代每个键值对,判断该键是否包含在更新表中(即以该键访问更新表的布隆过滤器,若不命中即不存在,若命中,则在跳表中查找),若存在,则将该键标记为drop,若不存在,则查询热数据记录表;若该键不在热数据记录表中,则判断为冷数据,若在,根据热数据记录表获得该键的访问频率,根据是否超过一定阈值,将键分为冷数据与热数据,分别将冷数据和热数据保存到不同的SSTable文件中;将标记为drop的数据丢弃。
将保存热数据的新SSTable文件写入Lc,保存冷数据的新SSTable文件写入Lc+1,删除此次压缩过程涉及的旧SSTable文件。
进一步作为本方法优选实施例,所述响应于用户向数据库发起查询,查找该键值对并将对应的键数据添加到热数据记录表这一步骤,其具体包括:
响应于用户向数据库发起查询,在memtable中查找该键值对;
判断到未能在memtable中查找到该键值对,在缓存模块中查找该键值对;
判断到未能在缓存模块中查找到该键值对,则查找SStable中的数据块;
查找到该键值对并将对应的键数据添加到热数据记录表。
如图2所示,一种基于改进LSM树结构的数据存储系统,包括:
预创建模块,响应于用户创建数据库的操作,系统根据用户指定容量,创建更新表并设置阈值,同时创建热数据记录表。
存储模块,响应于用户向数据库中插入键值对,系统将键值对记录到Memtable,将键记录到更新表,判断到更新表未达到预设阈值,则插入过程结束,判断到更新表达到预设阈值,触发特殊压缩操作。
进一步作为本系统优选实施例,还包括:
查询模块,响应于用户向数据库发起查询,查找该键值对并将对应的键数据添加到热数据记录表。
上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (5)

1.一种基于改进LSM树结构的数据存储方法,其特征在于,包括以下步骤:
响应于用户创建数据库的操作,系统根据用户指定容量,创建更新表并设置阈值,同时创建热数据记录表;
响应于用户向数据库中插入键值对,系统将键值对记录到MemTable,将键记录到更新表;
判断到更新表未达到预设阈值,则插入过程结束;
判断到更新表达到预设阈值,选择符合预设条件的SSTable触发特殊压缩操作;
改进LSM树结构包括MemTable、更新表、热数据记录表和SSTable;
所述预设条件的SSTable具体包括:
构建旧数据分割线;
将分割线所在的层次记为Ld,从Ld的下一层Ld+1开始,逐层读取每个SSTable文件的元数据;
根据元数据中的键范围与更新表的最大键和最小键作比较,并判断有无范围交叉;
判断到有范围交叉,计算该SSTable文件中的无效键占比;
判断到该SSTable文件中的无效键占比大于预设值,选择该SSTable文件进行压缩;
所述无效键占比的计算公式为ratio=Hk/Nk,ratio表示无效键值比,Hk表示更新表中的键命中该文件的布隆过滤器的数量,Nk表示该文件包含的键的总数量;
所述特殊压缩操作的具体步骤包括:
将该SSTable文件所在的层次记为Lc,从Lc的下一层次Lc+1开始,选择与该SSTable有键范围交叉的文件;
为该SSTable文件以及选中的所有SSTable文件生成一个总体迭代器;
依次迭代每个键值对并将键分为冷数据和热数据,分别将冷数据和热数据保存到不同的SSTable文件;
将保存热数据的新SSTable文件写入Lc,保存冷数据的新SSTable文件写入Lc+1,删除此次压缩过程涉及的旧SSTable文件。
2.根据权利要求1所述一种基于改进LSM树结构的数据存储方法,其特征在于,还包括查询步骤:
响应于用户向数据库发起查询,查找该键值对并将对应的键数据添加到热数据记录表。
3.根据权利要求2所述一种基于改进LSM树结构的数据存储方法,其特征在于,所述响应于用户向数据库中插入键值对,系统将键值对记录到MemTable,将键记录到更新表这一步骤还包括:
当MemTable记录的键值对写满,将MemTable记录的键值转为SSTable;
判断到SSTable的数量达到预设值,触发普通压缩操作;
所述判断到SSTable的数量达到预设值,触发普通压缩操作这一步骤,其具体包括:
根据所有SSTable生成一个总体的迭代器,依次访问每个键值对;
判断到当前键是首次出现,保留并记录该键;
判断到当前键不是首次出现,表示该键为旧数据,标记为drop;
将没有被标记为drop的键值对写入新的SSTable文件并保存到下一层次中;
迭代完成后将旧的SSTable文件删除。
4.根据权利要求3所述一种基于改进LSM树结构的数据存储方法,其特征在于,所述响应于用户向数据库发起查询,查找该键值对并将对应的键数据添加到热数据记录表这一步骤,其具体包括:
响应于用户向数据库发起查询,在MemTable中查找该键值对;
判断到未能在MemTable中查找到该键值对,在缓存模块中查找该键值对;
判断到未能在缓存模块中查找到该键值对,则查找SSTable中的数据块;
查找到该键值对并将对应的键数据添加到热数据记录表。
5.一种基于改进LSM树结构的数据存储系统,其特征在于,用于执行权利要求1所述的方法,包括:
预创建模块,响应于用户创建数据库的操作,系统根据用户指定容量,创建更新表并设置阈值,同时创建热数据记录表;
存储模块,响应于用户向数据库中插入键值对,系统将键值对记录到MemTable,将键记录到更新表,判断到更新表未达到预设阈值,则插入过程结束,判断到更新表达到预设阈值,触发特殊压缩操作。
CN202110983267.7A 2021-08-25 2021-08-25 一种基于改进lsm树结构的数据存储方法及系统 Active CN113704260B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110983267.7A CN113704260B (zh) 2021-08-25 2021-08-25 一种基于改进lsm树结构的数据存储方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110983267.7A CN113704260B (zh) 2021-08-25 2021-08-25 一种基于改进lsm树结构的数据存储方法及系统

Publications (2)

Publication Number Publication Date
CN113704260A CN113704260A (zh) 2021-11-26
CN113704260B true CN113704260B (zh) 2023-09-29

Family

ID=78654770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110983267.7A Active CN113704260B (zh) 2021-08-25 2021-08-25 一种基于改进lsm树结构的数据存储方法及系统

Country Status (1)

Country Link
CN (1) CN113704260B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114969069B (zh) * 2022-05-30 2024-06-18 华侨大学 一种应用于键值存储系统的热度感知本地更新方法
CN116048396B (zh) * 2022-12-30 2024-03-08 蜂巢科技(南通)有限公司 基于日志结构化合并树的数据存储装置和存储控制方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824720A (zh) * 2016-03-10 2016-08-03 中国人民解放军国防科学技术大学 一种面向数据连续读取的重删纠删混合系统的数据放置方法器
CN111026329A (zh) * 2019-11-18 2020-04-17 华中科技大学 基于主机管理瓦记录磁盘的键值存储系统及数据处理方法
CN111966652A (zh) * 2019-05-20 2020-11-20 阿里巴巴集团控股有限公司 共享存储同步数据的方法、装置、设备、系统和存储介质
CN112346666A (zh) * 2020-11-30 2021-02-09 华中科技大学 基于ocssd的键值存储系统的写、块粒度压缩合并方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018129500A1 (en) * 2017-01-09 2018-07-12 President And Fellows Of Harvard College Optimized navigable key-value store

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824720A (zh) * 2016-03-10 2016-08-03 中国人民解放军国防科学技术大学 一种面向数据连续读取的重删纠删混合系统的数据放置方法器
CN111966652A (zh) * 2019-05-20 2020-11-20 阿里巴巴集团控股有限公司 共享存储同步数据的方法、装置、设备、系统和存储介质
CN111026329A (zh) * 2019-11-18 2020-04-17 华中科技大学 基于主机管理瓦记录磁盘的键值存储系统及数据处理方法
CN112346666A (zh) * 2020-11-30 2021-02-09 华中科技大学 基于ocssd的键值存储系统的写、块粒度压缩合并方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
An Improved Error-Based Pruning Algorithm of Decision Trees on Large Data Sets.2021 IEEE the 6th International Conference on Big Data Analytics.2021,全文. *

Also Published As

Publication number Publication date
CN113704260A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
US11853549B2 (en) Index storage in shingled magnetic recording (SMR) storage system with non-shingled region
CN113704260B (zh) 一种基于改进lsm树结构的数据存储方法及系统
US9449005B2 (en) Metadata storage system and management method for cluster file system
US8271462B2 (en) Method for creating a index of the data blocks
US20130173853A1 (en) Memory-efficient caching methods and systems
US20070124277A1 (en) Index and Method for Extending and Querying Index
KR20120090965A (ko) 고체-상태 저장 디바이스 상에서 데이터를 캐싱하는 장치, 시스템, 및 방법
CN109800185B (zh) 一种数据存储系统中的数据缓存方法
CN111651127B (zh) 一种基于叠瓦式磁记录盘的监控数据存储方法及装置
WO2009033419A1 (fr) Procédé de traitement de mise en antémémoire de données, système et dispositif de mise en antémémoire de données
CN113094336B (zh) 基于Cuckoo哈希的文件系统目录管理方法及系统
CN103176754A (zh) 一种海量小文件读取存储方法
US20200301906A1 (en) Sparse infrastructure for tracking ad-hoc operation timestamps
US11461239B2 (en) Method and apparatus for buffering data blocks, computer device, and computer-readable storage medium
CN113535670B (zh) 一种虚拟化资源镜像存储系统及其实现方法
CN111143285A (zh) 一种小文件存储文件系统以及小文件处理方法
CN114416646A (zh) 一种层级存储系统的数据处理方法及装置
CN113590612A (zh) Dram-nvm混合索引结构的构建方法及操作方法
CN115167778A (zh) 存储的管理方法、系统及服务器
CN113377292A (zh) 一种单机存储引擎
CN109002400B (zh) 一种内容感知型计算机缓存管理系统及方法
CN112527804B (zh) 文件存储方法、文件读取方法和数据存储系统
KR20180135390A (ko) 대용량 ssd 장치를 위한 데이터 저널링 방법
CN111859038A (zh) 一种分布式存储系统数据热度统计方法、装置
CN115048056A (zh) 基于页面替换代价的固态硬盘缓冲区管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant