CN115168317A

CN115168317A - 一种lsm树存储引擎构建方法和系统

Info

Publication number: CN115168317A
Application number: CN202210904523.3A
Authority: CN
Inventors: 冯力; 徐文豪; 王弘毅; 张凯
Original assignee: SmartX Inc
Current assignee: Beijing Zhiling Haina Technology Co ltd
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-10-11
Anticipated expiration: 2042-07-29
Also published as: CN115168317B

Abstract

本发明提供了一种LSM树存储引擎构建方法和系统。其中，该种LSM树存储引擎构建方法包括：在完成业务数据的Flush处理的情况下，生成第一SST文件写入持久内存生成包括若干层级的热数据文件，构建第一引擎存储；在第一阶段的第一SST文件的不同层级之间的热数据文件满足第一迁移条件的情况下，执行第一SST文件的第一compaction；在第二阶段的第一SST文件成为冷数据需要满足第二迁移条件需要执行数据下沉时，执行第一SST文件的第二compaction，生成第二SST文件作为冷数据写入非易失性存储介质，构建第二引擎存储。通过本申请的技术方案能够将LSM树数据库中的数据文件分层级存储在不同的存储介质中，充分利用各种不同存储介质的优点，提高数据存储效率，降低数据存储的成本。

Description

一种LSM树存储引擎构建方法和系统

技术领域

本申请设计数据处理技术领域，尤其涉及一种LSM树存储引擎构建方法和系统。

背景技术

LSM-Tree存储引擎是一种可以有效支持SMR磁盘的嵌入式存储系统，通过LSM-Tree(Log-Structured Merge-Tree，日志结构合并树,LSM树)满足数据更新时，无需将数据写入到磁盘中，而可以先将最新的数据驻留在内存中，等到积累到最后多之后，再使用归并排序的方式将内存内的数据合并追加到磁盘队尾，大多数NoSQL类型的数据库引擎，包括例如Leveldb，Rocksdb等，都可以基于LSM树实现。

于现有技术中，图1示出了一种在LSM树中数据存储方式的示意图，最低一级也是最小的C0树位于内存里，而更高级的C1、C2...树都位于磁盘里。数据会先写入内存中的C0树，当它的大小达到一定阈值之后，C0树中的全部或部分数据就会刷入磁盘中的C1树，由于内存的读写速率都比外存要快非常多，因此数据写入C0树的效率很高。并且数据从内存刷入磁盘时是预排序的，也就是说，LSM树将原本的随机写操作转化成了顺序写操作，写性能大幅提升。

进一步地，为了防止内存因断电等原因丢失数据，写入内存的数据同时会顺序在磁盘上写WAL(Write Ahead Log，预写日志)，如果存在多级树的情况下，低级的树在达到一定要求的大小阈值后也会在磁盘中进行合并，图2示出了多级树合并的示意图，合并的过程为数据文件Compaction的过程。

支持数据的操作特性，需要较好的硬件配置，比如高性能CPU、大内存、SSD硬盘等等，随着时间的推移，系统里会积累越来越多的历史数据，如果依然采用高配置设备来存放这些使用频率非常低的数据，势必会带来高昂的成本。当前LSM树数据库的所有数据文件存储在一个目录下，使得不管是WAL文件或者数据文件都是无差别的存储在某一单一存储介质上，但面对复杂的应用场景，单一的维度往往无法有效解决问题，数据存储时无法充分的利用各种不同存储介质的优点，占用额外的CPU存储资源、数据读写延迟高、数据吞吐量小，数据存储效率低。

发明内容

本申请提供了一种LSM树存储引擎构建方法和系统，以解决现有技术中WAL文件或者数据文件都是无差别的存储在某一单一存储介质上，无法实现根据数据类型将选择不同存储介质等问题。

根据本申请的第一方面，提供了一种LSM树存储引擎构建方法，具体包括：

在完成业务数据的Flush处理的情况下，生成第一SST文件写入持久内存，构建为第一SST文件的第一引擎存储；

在第一阶段的第一SST文件满足第一迁移条件的情况下，执行第一SST文件的第一compaction；

在第二阶段的第一SST文件满足第二迁移条件的情况下，执行第一SST文件的第二compaction，生成第二SST文件写入到非易失性存储介质，构建为将第二SST文件的第二引擎存储。

在上述第一方面的一种可能的实现中，生成第一SST文件写入持久内存，包括：暴露I/OAT设备的寄存器中断信息；根据中断信息提交数据传输任务至IATO设备，实现业务数据向持久内存的传输。

在上述第一方面的一种可能的实现中，生成第一SST文件写入持久内存时还包括：

存储WAL日志文件和若干层级组成的热数据文件。

在上述第一方面的一种可能的实现中，第一阶段的第一SST文件满足第一迁移条件的情况下包括：

任意一层存储的热数据文件数量超过第一预设阈值；

和/或,

任意一层存储的热数据文件的容量超过第二预设阈值；

和/或，

任意一层存储的若干热数据文件当出现无效读取的次数超过第三预设阈值。

在上述第一方面的一种可能的实现中，执行第一SST文件的第一compaction包括：将满足第一迁移条件的若干第一SST文件按照顺序compaction，并进行归并排序。

在上述第一方面的一种可能的实现中，第二阶段的第一SST文件满足第二迁移条件包括：第一SST文件的热数据文件不满足持久内存的预设存储设定。

在上述第一方面的一种可能的实现中，述持久内存包括：按字节寻址的非易失性内存。

在上述第一方面的一种可能的实现中，非易失性存储介质包括：支持顺序写入的ZNS设备。

本申请的第二方面提供了一种LSM树存储引擎构建系统，具体包括：

写入单元，用于在完成业务数据的Flush处理的情况下，生成第一SST文件写入持久内存，构建为第一SST文件的第一引擎存储；

第一迁移单元，在第一阶段的第一SST文件满足第一迁移条件的情况下，执行第一SST文件的第一compaction；

第二迁移单元，在第二阶段的第一SST文件满足第二迁移条件的情况下，执行第一SST文件的第二compaction，生成第二SST文件写入到非易失性存储介质，构建为将第二SST文件的第二引擎存储。

与现有技术相比，本申请具备以下有益技术效果：

通过本申请提出的一种LSM树存储引擎构建方法，能够基于支持数据的操作特性，将系统里访问频率不同的数据文件在LSM树数据库中分层级、分目录存储，使得所有数据文件存储在不同目录下，面对复杂的应用场景使得WAL文件或者冷数据文件或者热数据文件采取不同的存储介质进行存储，数据存储不同的数据根据其数据特征，充分利用各种不同存储介质的优点，尽量减少额外的CPU存储资源的占用、降低数据读写延迟、提高数据吞吐量，提高数据存储效率，降低数据存储的成本。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1根据本申请的实施例，示出了一种在LSM树中数据存储方式的示意图；

图2根据本申请的实施例，示出了出了多级树合并的示意图；

图3根据本申请的实施例，示出了LSM树存储引擎构建方法的流程示意图；

图4根据本申请的实施例，示出了一种通过I/OAT DMA设备设置dmacount寄存器的示意图；

图5根据本申请的实施例，示出了一种用户态加速持久内存写入流程图；

图6根据本申请的实施例，示出了一种数据读写的示意图；

图7根据本申请的实施例，示出了一种L0和L1层文件合并的示意图；

图8根据本申请的实施例，示出了一种ZNS SSD顺序写示意图；

图9根据本申请的实施例，示出了一种LSM树存储引擎构建系统框图。

具体实施方式

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

DMA(Direct Memory Access)的技术，它称为直接内存访问，也就是说可以直接读，写内存，而不再需要操作系统做这样的操作。

DSA(Driver and Support Assistant)的技术DSA能够支持共享虚拟内存(SVM)操作，允许设备直接在应用程序的虚拟地址空间中运行，而无需固定内存。

I/OAT(I/O Acceleration Technology,I/O加速技术),凭借执行DMA来卸载主处理器的内存复制工作,用于加速网络流量的传输，支持任何类型的复制。

WAL(Write-Ahead Logging，预写日志系统)，对于非内存数据库而言，磁盘I/O操作是数据库效率的一大瓶颈。在相同的数据量下，采用WAL日志的数据库系统在事务提交时，磁盘写操作只有传统的回滚日志的一半左右。

IOMMU(Input/Output memory management unit，IO内存管理单元),允许系统设备在虚拟内存中进行寻址，也就是将虚拟内存地址映射为物理内存地址，让实体设备可以在虚拟的内存环境中工作。

为了解决现有技术中LSM树数据库的所有数据文件存储在一个目录下，使得不管是WAL文件或者数据文件都是无差别的存储在某一单一存储介质上，数据存储时无法充分的利用各种不同存储介质的优点，占用额外的CPU存储资源、数据读写延迟高、数据吞吐量小，数据存储效率低等缺陷，本申请提出了一种LSM树存储引擎构建方法和系统，通过选择不同选择非易失性内存保存WAL文件及热数据文件，基于使用I/OAT或者DSA技术来直接进行DMA数据传输，节省大量CPU资源，使用Zone设备来存储冷数据文件，作为容量层，可以最大的节省费用，提高性能，降低延迟，提升吞吐量。

下面通过具体实施方式结合附图对本发明作进一步详细说明。

具体地，图3根据本申请的实施例，示出了LSM树存储引擎构建方法的流程示意图，具体包括：

步骤100：在完成业务数据的Flush处理的情况下，生成第一SST文件写入持久内存，构建为第一SST文件的第一引擎存储。可以理解的是，云存储平台在对外提供云存储服务时，LSM-Tree存储引擎可以获取用户上传的业务数据，并对业务数据的数据内容进行解析，以读取其中的Key-Value形式的数据。之后，LSM-Tree存储引擎可以将Key-Value数据保存在内存表中，当内存表写满时，可以对内存表中的数据进行Flush处理，从而可以生成业务数据对应的第一SST文件。

步骤200：在第一阶段的第一SST文件满足第一迁移条件的情况下，执行第一SST文件的第一compaction。可以理解的是，当持久内存中存储的第一SST文件在写入初期初期，用户经常查询频率较高，热数据放置在热存储中，对硬件要求较高，往往拥有性能较强的服务器、存储、带宽支持，对于按照LSM-Tree的结构存储的数据需要在热数据文件存储的文件层例如地，L0-L3层中进行相应地迁移，并执行compaction。

于本申请的一些实施例中，第一阶段的第一SST文件满足第一迁移条件的情况下包括：任意一层存储的热数据文件数量超过第一预设阈值；和/或,任意一层存储的热数据文件的容量超过第二预设阈值；和/或，任意一层存储的若干热数据文件当出现无效读取的次数超过第三预设阈值。可以理解的是，当0层文件或者其它层的文件数量超过预定的上限；当level i层文件的总大小超过(10^i)MB；当某个文件无效读取的次数过多的任意一种或者多种情况出现时，第一SST文件的持久内存不能满足文件的存储、某些文件需要进行迁移或者进一步下沉，使得持久内存的空间满足存储WAL文件和热数据文件的条件。

步骤300：在第二阶段的第一SST文件满足第二迁移条件的情况下，执行第一SST文件的第二compaction，生成第二SST文件写入到非易失性存储介质，构建为将第二SST文件的第二引擎存储。可以理解的是，数据写入初期，用户的关注度较高且访问频繁，此时的数据为热数据。但随着时间的推移，旧数据访问频率会越来越低，仅存在少量查询，甚至完全不查询，该部分数据保留在持久内存占有一定的内容容量，使得热数据文件中的文件数量、存储容量等增加，此时该占据内存且访问频率较低部分数据可以被定义为冷数据，此时需要对该部分数据进行迁移，即满足第一SST文件满足第二迁移条件，将该部分数据进行下沉处理。

于上述步骤100中，生成第一SST文件写入持久内存(PMEM)，包括：暴露I/OAT设备的寄存器中断信息；根据中断信息提交数据传输任务至IATO设备，实现业务数据向持久内存的传输。可以理解的是，让I/OAT设备来完成数据从用户态到非易失性内存设备的传输，这个过程是异步的，CPU不需要参与，可以大大提高传输数据的性能以及降低延迟。

于本申请的一些实施例中，采用I/OAT以及DSA技术，通过VFIO(Virtual FunctionI/O，驱动框架)将I/OAT的寄存器，中断暴露到用户态，然后用户态操作寄存器来提交任务到I/OAT设备，具体实现过程将在下述进行详细叙述。

于上述步骤100中，生成第一SST文件写入持久内存时还包括：存储WAL日志文件和若干层级组成的热数据文件。可以理解的是，生成第一SST文件写入持久内存，包括非易失性内存设备，既可以当内存使用，也可以当存储使用，非易失性内存设备作为WAL以及不同层级的热数据文件的存储使用。为了防止内存因断电等原因丢失数据，写入内存的数据同时会顺序在磁盘上写WAL(Write Ahead Log)文件，为了提高数据的处理效率，在存储系统中是将不同热度的数据块自动地、智能地分布在性能不同的存储层，热数据的数据被访问的频率高，因此在写入持久内存时将被访问频率高的数据写在上层作为热数据文件。

于本申请的一些实施例中，如图4所示，示出了一种通过I/OAT DMA设备设置dmacount寄存器的示意图。当用户通过MMIO(Memory-mapped IO，内存映射IO)给I/OAT DMA设备的dmacount寄存器置上一个数的时候，I/OAT DMA就会知道它应该要开始进行一系列的拷贝任务了。实际上dmacount分了inner和external两个寄存器，前者仅由I/OAT DMA设备内部读写，后者供用户修改。I/OAT DMA当发现external>inner时，便从寄存器chainaddr值+寄存器dmacount_inner值所得的内存地址处取得任务描述结构体descriptor，紧接着进行descriptor所指定的拷贝任务，其中chainaddr值是用户在发起I/OAT DMA拷贝任务之前所需设置的descriptor结构体数组的内存首地址，该结构体包含了拷贝任务所需的源地址、目标地址、拷贝大小以及相关的控制信息。I/OAT DMA 每取得一个descriptor并完成相应的拷贝任务后，便会让寄存器dmacount_inner+＝1，并接着进行下一个descriptor描述的任务，直到inner＝＝external为止。

于本申请的一些实施例中，如图5所示，示出了一种用户态加速持久内存写入流程图。应用程序通过调用SPDK提供的spdk_mem_register接口来请求把指定的virtualaddress对应的phy address和IOVA 建立DMA 映射。SPDK将通过调用syscallioctl并透过vifo_iommu_type1驱动来告知内核驱动intel_iommu进行真正的IOMMU DMA映射，构建PageTable。完成映射后，SPDK本身也会保存着这个映射关系，向I/OAT Driver提供virtualaddress到IOVA 的地址翻译功能。由SPDK实现的用户层的I/OAT驱动程序提供了许多易用的用户接口，关于拷贝任务发起的有：

(1)提供接口spdk_I/OAT_build_copy的调用来构造一次拷贝任务；

(2)提供接口spdk_I/OAT_flush的调用来发起在前面n次构造的拷贝任务；

(3)提供接口spdk_I/OAT_process_events的调用来检查拷贝任务的完成与否；

这些接口完成前述的descriptor结构体的构造、寄存器dmacount的赋值和寄存器值dma_comp的轮询；应用程序调用spdk_I/OAT_build_copy接口时，地址参数传的是virtual address，I/OAT Driver通过在之前SPDK所保存的DMA 映射关系来把这virtualaddress翻译得到IOVA(IO虚拟地址)，并填入IOVA,descriptor的src_addr和dest_addr里，得益于vfio_pci驱动把原本呈现在kernel的MMIO内存空间映射至用户态的进程地址空间，SPDK的I/OAT Driver在给I/OAT DMA 设备寄存器赋值时，无需陷入内核态；dmacount被赋值后，I/OAT的DMA设备便开始了拷贝任务，设备所发出的内存读写请求报文(TLP)中的内存地址字段填入的是IOVA，TLP到达Root Complex时该IOVA会被IOMMU翻译成物理地址，之后该内存读写请求才会被发往至内存控制器里；如果IOVA不曾被IOMMU建立DMA映射，那么I/OAT DMA设备尝试通过该IOVA访问内存时，就会收到地址非法错误的响应，并设置chanerr寄存器中相应的错误位。

于本申请的一些实施例中，如图6所示，示出了一种数据读写的示意图。其中，active memtable(也叫write buffer写缓冲):它服务于用户的读请求和写请求，memtable中的数据总是最新的，一旦memtable被写满，它会变成一个不可修改的memtable，称为immutable memtable，并生成一个新的active memtable提供读写服务；每个列族拥有一个专属的memtable，用来写入和读取，memtable支持多种容器实现，如Skiplit(默认)/HashSkiplist/HashLinklist/Vertor等，put进来的key和value会与序列号，type等信息组装成一个数据结构存放在如上的容器中。上层的热数据文件可以包括L0-L3层的数据写入通过I/OAT/DSA硬件加速来实现用户态的immutable memtable写入到非易失性内存设备中，同时可以定义L0-L3层热数据文件每一层存储的文件数量的数量阈值为第一预设阈值，每一层存储的热数据文件的存储容量的容量阈值为第二预设阈值，某一层的某一热数据文件被无效读写次数的第三预设阈值。

进一步地，当上层热数据文件通过LSM-Tree存储时，处于较低层级的树在需要合并的情况下，其达到一定的数据迁移或者合并条件后，达到大小阈值后也会在即实现热数据文件层的热数据文件相应的进行迁移。

于上述步骤200中，执行第一SST文件的第一compaction包括：将满足第一迁移条件的若干第一SST文件按照顺序compaction，并进行归并排序。可以理解的是，当0层文件数超过预定的上限；当level i层文件的总大小超过(10^i)MB；当某个文件无效读取的次数过多的任意一种或者多种情况出现时，均需对述第一SST文件的第一compaction，以使得根据key重叠情况扩大输入文件集合；多路合并，生成新文件，删除旧文件。

如图7所示，示出了一种L0和L1层文件合并的示意图。具体地，L0层存储的文件阈值设置为4个，当L0层文件阈值达到第一预设阈值的情况下,寻找合适的输入文件；按照key重叠情况扩大输入文件集合，L0层3个SST文件和L1层的一个文件合并成2个文件。

于上述步骤300中，第二阶段的第一SST文件满足第二迁移条件包括：第一SST文件的热数据文件不满足持久内存的预设存储设定。可以理解的是，当存储热数据文件的持久内存不能的存储容量不满足预设要求的情况下，选择第一SST文件中访问频率较低或者不会被经常访问甚至永远不会被访问，但仍然需要长期保留的数据为满足第二迁移条件的数据。

于本申请的一些实施例中，持久内存包括：按字节寻址的非易失性内存。可以理解的是，持久内存(PMEM)是驻留在内存总线上的固态高性能按字节寻址内存设备；PMEM位于内存总线上，支持像DRAM一样访问数据，这意味着它具备与DRAM相当的速度和延迟，而且兼具NAND闪存的非易失性，实现访问延迟低于闪存SSD的访问延迟，吞吐量提高，超过闪存存储，比DRAM便宜。断电后，数据仍保留在内存中等特点。

于本申请的一些实施例中，可以采用Intel 3D XPoint DIMM，也称为Optane DC持久内存实现PMEM。

于本申请的一些实施例中，非易失性存储介质包括：支持顺序写入的ZNS(zonednamespace，存储区域命名空间)设备。可以理解的是，SSD(Solid State Disk，固态硬盘)即NAND闪存，一种非易失性的存储器，其在单位面积PCB板上，集成了包括主控芯片、闪存颗粒(即存储介质)以及缓存芯片，外加大大小小的控制芯片和核心单元等核心组件，通过通电和放电的形式，将数据存储到闪存介质之中，实现数据的存储。

具体地，如图8所示，示出了一种ZNS SSD顺序写示意图。ZNS SSD是Zoned Storage设备的一种，实现Zoned Storage设备是将address space分成多个zones,不同于标准块设备的读写，Zoned Storage设备没有读限制但有写限制：必须顺序写，每个zone有一个writepointer去记录下一次要写的位置，数据不能覆写,要写之前，必须先利用特别的命令进行擦除。NVME2.0协议加入了ZNS的支持。ZNS的优点有实现了IO分离、可预测的延迟、写放大更小。普通NVMe/SSD存储，文件不能被驱动器分开写入，最终导致具有不同生存期的文件被存储在相同擦除单元中，而ZNS SSD支持主机与存储设备协作放置数据，可以实现应用程序控制区域中的数据放置，即分区存储。LSM树产生的SST文件就是非常适合存储在Zone设备上，因为满足顺序写，完整擦除特性。

具体地，ZNS设备由于只支持顺序写，不能inplace写，所以不需要GC(GarbageCollection)过程，也就不需要OP(OP(Over-provisioning)预留空间)空间，3.使用Zone设备来存储冷数据，作为容量层。

在本申请的一些实施例中，如图9所示，示出了一种LSM树存储引擎构建系统，具体包括：

写入单元1，用于在完成业务数据的Flush处理的情况下，生成第一SST文件写入持久内存，构建为第一SST文件的第一引擎存储；

第一迁移单元2，在第一阶段的第一SST文件满足第一迁移条件的情况下，执行第一SST文件的第一compaction；

第二迁移单元3，在第二阶段的第一SST文件满足第二迁移条件的情况下，执行第一SST文件的第二compaction，生成第二SST文件写入到非易失性存储介质，构建为将第二SST文件的第二引擎存储。

可以理解的是，上述LSM树存储引擎构建系统中各个功能模块执行与前述LSM树存储引擎构建方法中相同的步骤流程，在此不做赘述。

本说明书中各个实施例采用递进、或并列、或递进和并列结合的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

需要说明的是，在本申请的描述中，需要理解的是，术语“上”、“下”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。当一个组件被认为是“连接”另一个组件，它可以是直接连接到另一个组件或者可能同时存在居中设置的组件。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括上述要素的物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种LSM树存储引擎构建方法，其特征在于，所述的方法包括：

在完成业务数据的Flush处理的情况下，生成第一SST文件写入持久内存，构建为所述第一SST文件的第一引擎存储；

在第一阶段的所述第一SST文件满足第一迁移条件的情况下，执行所述第一SST文件的第一compaction；

在第二阶段的所述第一SST文件满足第二迁移条件的情况下，执行所述第一SST文件的第二compaction，生成第二SST文件写入到非易失性存储介质，构建为将所述第二SST文件的第二引擎存储。

2.根据权利要求1所述的一种LSM树存储引擎构建方法，其特征在于，生成第一SST文件写入持久内存，包括：

暴露I/OAT设备的寄存器中断信息；

根据所述中断信息提交数据传输任务至I/OAT设备，实现业务数据向持久内存的传输。

3.根据权利要求1所述的一种LSM树存储引擎构建方法，其特征在于，生成第一SST文件写入持久内存时还包括：

存储WAL日志文件和若干层级组成的热数据文件。

4.根据权利要求3所述的一种LSM树存储引擎构建方法，其特征在于，第一阶段的所述第一SST文件满足第一迁移条件的情况下包括：

任意一层存储的热数据文件数量超过第一预设阈值；

和/或,

任意一层存储的热数据文件的容量超过第二预设阈值；

和/或，

任意一层存储的若干所述热数据文件当出现无效读取的次数超过第三预设阈值。

5.根据权利要求1所述的一种LSM树存储引擎构建方法，其特征在于，执行所述第一SST文件的第一compaction包括：

将满足所述第一迁移条件的若干所述第一SST文件按照顺序compaction，并进行归并排序。

6.根据权利要求1所述的一种LSM树存储引擎构建方法，其特征在于，第二阶段的所述第一SST文件满足第二迁移条件包括：

所述第一SST文件的热数据文件不满足所述持久内存的预设存储设定。

7.根据权利要求1所述的一种LSM树存储引擎构建方法，其特征在于，所述持久内存包括：

按字节寻址的非易失性内存。

8.根据权利要求1所述的一种LSM树存储引擎构建方法，其特征在于，所述非易失性存储介质包括：

支持顺序写入的ZNS设备。

9.一种LSM树存储引擎构建系统，其特征在于，所述的系统包括：

写入单元，用于在完成业务数据的Flush处理的情况下，生成第一SST文件写入持久内存，构建为所述第一SST文件的第一引擎存储；

第一迁移单元，在第一阶段的所述第一SST文件满足第一迁移条件的情况下，执行所述第一SST文件的第一compaction；

第二迁移单元，在第二阶段的所述第一SST文件满足第二迁移条件的情况下，执行所述第一SST文件的第二compaction，生成第二SST文件写入到非易失性存储介质，构建为将所述第二SST文件的第二引擎存储。