CN107515901B

CN107515901B - 一种链式日志存储结构及其哈希索引结构、数据操作方法及服务器、介质

Info

Publication number: CN107515901B
Application number: CN201710606580.2A
Authority: CN
Inventors: 刘庆云; 杨泞构; 刘俊朋; 张鹏; 郑超; 杨嵘
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2017-07-24
Filing date: 2017-07-24
Publication date: 2020-12-04
Anticipated expiration: 2037-07-24
Also published as: CN107515901A

Abstract

本发明公开了一种链式日志存储结构及其哈希索引结构、数据操作方法及服务器、介质。本发明的链式日志存储结构，包括多个存储段和一数组，每一存储段的存储单元为一日志项，日志项包括初始大小字段、索引位置字段、键长度字段、Key字段和Value字段；其中Value字段用于存储数据，Key字段用于存储数据的键，初始大小字段用于存储日志项的初始大小，索引位置字段用于存储日志项的索引在哈希表中的位置；所述数组用于存储各存储段的元信息。本发明的哈希索引结构包括多个哈希桶，每一哈希桶的数据结构包括：索引数字段、有效标志字段、标签字段、偏移量字段和扩展桶字段。本发明能够保持整个结构内存的紧密连续性，降低碎片率。

Description

一种链式日志存储结构及其哈希索引结构、数据操作方法及服务器、介质

技术领域

本发明属于IT技术领域，涉及一种NoSql内存数据库-数据存储结构，特别涉及一种链式日志存储结构及其哈希索引结构、数据操作方法及服务器、介质。

背景技术

网络空间资源测绘是对网络空间资源的统一描述、全面感知和全景刻画。通过对网络空间资源的探测、分析和绘制，对我国建设成为网络强国具有重要意义，然而网络空间资源规模庞大并且动态时变，为此需要一种高效的资源缓存策略，能够对资源进行去重存储和高效查询，支持业务用户全面掌握网络空间资源特性及其分布。

此外，随着互联网的发展，互联网越来越深刻的影响人们的日常生活，有线网、无线网和4G移动网络成为人们日常使用互联网的最常用的接入方式。对于互联网服务提供者来说，为方便用户在不同网络切换时不用重复登录，经常采用的方案是将用户的UUID缓存在服务器端，当用户切换网络时能快速查找到用户的登录状态，并将用户正在查看的信息直接显示在用户当前的终端上。因此需要在服务端部署一个高效的缓存系统，方便缓存大量的用户登录信息，同时保证能高效的查询该信息。

目前的内存缓存系统如Redis和Memcached等都采用哈希表(Hashtable)作为其索引结构。哈希表是根据键(Key)的哈希散列值来直接访问在内存存储位置的数据结构。其核心思想是设关键字为k，则其值存放在f(k)的存储位置上。由此，不需比较便可直接取得所查记录，并称这个对应关系f为散列函数。哈希表的存储单元皆由key和value的键值对组成。

然而由于计算机内存资源的有限，哈希表的大小是有限的，所以散列函数的映射关系只能是多对一的，这就可能出现k₁≠k₂，f(k₁)＝f(k₂)，这种情况称为哈希冲突(Collision)，通过构造性能良好的散列函数可以减少冲突，但一般不可能完全避免冲突，因此解决冲突是构建哈希表的一个关键问题。

处理哈希冲突的方法主要可分为四种：

开放地址法：hash_i＝(hash(key)+d_i)mod m,i＝1,2…k(k≤m-1),其中hash(key)为散列函数，m为散列表长度，d_i位增量序列，i为已发生冲突的次数。根据增量序列的不同可分为线性探测、平方探测和伪随机探测等。

链地址法：这种方法的基本思想是将发生哈希冲突的元组构成一个单链表，查找、插入和删除都通过遍历这个链表来实现。

再哈希法：hash_i＝hash_i(key),i＝1,2…k。hash_i是一个哈希族，即在哈希计算发生冲突时，使用下一个哈希族函数计算哈希值，直到冲突不再产生。

公共溢出区法：建立一个公共溢出区，所有发生哈希冲突的元素都存储到该溢出区中。

现有的哈希冲突解决方法都会引入较多额外的开销，降低了哈希表的查找效率。开放地址法采用线性探测时由于增量序列是单调递增的，容易形成聚簇使数据在哈希表中分布不均，采用平方探测或伪随机探测则需要多次的随机访问，降低Cache的效率。链地址法引入了额外的指针开销，而且插入和查找时都需要遍历链表，效率较低。再哈希法需要进行多次哈希计算，计算开销较大。公共溢出区只适用于存储元素较少的场景。此外，目前的动态内存分配方式存在内存碎片问题导致内存利用率不高，这对内存缓存系统资源的开销是不可忽视的。

本发明通过设计一个高效的哈希索引结构，降低发生哈希冲突时大量指针遍历和字符串比对等操作带来的额外开销，同时设计一个内存友好的存储结构以较少内存碎片，提高内存利用率。

发明内容

为了提高内存键值对缓存系统的查询效率，本发明提供了一种链式日志存储结构及其哈希索引结构、数据操作方法及服务器、介质。本发明设计了一种新的哈希索引结构；同时为了更好地配合索引结构的特点并且减少传统动态内存分配器带来的内存碎片问题，本发明提出了使用连续内存段进行数据存储与管理的方案。

本发明通过合理的设计数据布局提高Cache命中率，并通过SIMD指令集加速索引查找的查询方法。使用连续的固定大小内存块来管理和存储数据，避免内存碎片的内存管理方法。

本发明的技术方案为：

一种链式日志存储结构，其特征在于，包括多个存储段Segment和一数组，每一所述存储段Segment的存储单元为一日志项，所述日志项包括初始大小字段、索引位置字段、键长度字段、Key字段和Value字段；其中Value字段用于存储数据，Key字段用于存储数据的键，初始大小字段用于存储日志项的初始大小，索引位置字段用于存储日志项的索引在哈希表中的位置；所述数组用于存储各存储段Segment的元信息。

所述元信息包括存储段Segment的起始地址、首元素地址、前后邻接存储段Segment的元信息在数组中的存放位置，以及存储段Segment的失效数据量。

所述前后邻接存储段Segment的元信息在数组中的存放位置为前后邻接存储段Segment元信息的数组下标。

使用大顶堆统计失效数据量最多的前K个存储段Segment，当内存使用率低于配置阈值时，对大顶堆中失效数据与segment大小的比例最大的存储段Segment进行迁移操作，将该存储段Segment中的有效数据重新插入到链式日志存储结构的头部位置，之后释放空的存储段Segment。

一种链式日志存储结构的哈希索引结构，其特征在于，包括多个哈希桶，每一所述哈希桶的数据结构包括：索引数字段、有效标志字段、标签字段、偏移量字段和扩展桶字段；其中，索引数字段，用于存储哈希桶中的有效索引项数量；有效标志字段是一位向量，该位向量的位数与标签字段中的标签数相同，该位向量中置0的位表示对应的标签值是有效的；标签字段中的标签值是Key字段中键的64位哈希值的前16位，后48位为哈希桶的下标；偏移量字段，用于存储Value字段中数据的存储位置在链式日志存储结构中的相对偏移量，根据Key字段、Value字段中键值对的对应关系标签字段中的标签值与偏移字段中的相对偏移量一一对应；当一哈希桶已满时，新的索引项会被插入到与该哈希桶最近的空哈希桶中，扩展桶字段用于记录该空哈希桶的下标。

所述相对偏移量占用48bit，其中前26bit存储存储段Segment的元信息数组下标，后22bit存储相对存储段Segment首元素地址的偏移量。

一种数据查询方法，其步骤包括：

1)对待查询数据value的关键字key进行哈希散列计算获得64位的哈希值；

2)取该哈希值的前16位为标签值tag，根据该哈希值后48位定位到哈希桶；

3)查找定位到的哈希桶的Tag字段中是否存在该标签值tag，若存在则返回该标签值对应的相对偏移量；如果不存在，且扩展桶字段不为空，则从该扩展桶字段指向的哈希桶中进行查找，直到找到该标签值tag或扩展桶字段为空；

4)根据返回的相对偏移量获取日志项，返回结果。

一种数据存储方法，其步骤包括：

1)对待存储数据value的关键字key进行哈希散列计算获得64位的哈希值；

2)取该哈希值的前16位为标签值tag，根据该哈希值的后48位定位到哈希桶；

3)若该哈希桶未满，则进行步骤4)；若该哈希桶已满但扩展桶字段不为空，则选取该扩展桶字段标识的哈希桶，进行步骤4)；若该哈希桶已满且扩展桶字段为空，则查找下一个非满哈希桶，把扩展桶字段赋值为该非满哈希桶的下标，然后进行步骤4)；

4)在当前哈希桶的有效标志字段的位向量中找到一置1的位，设置标签字段中该位对应的标签值为该哈希值的前16位，偏移字段中对应的相对偏移量前26位设置为该待存储数据value要存入的存储段Segment的元信息数组下标，后22位设置为头部指针与该存储段Segment的首元素地址的差值；

5)更新哈希桶的索引数字段和有效标志字段，即索引数字段的字段值加1，有效标志字段对应的位向量位置置0；

6)向头部指针处插入新的日志项存储该待存储数据value，若当前的存储段Segment剩余空间不足，则申请一个新的存储段Segment映射到当前存储段Segment的邻接位置，并更新存储存储段Segment元信息的数组，新的存储段Segment的首元素地址为当前头部指针的地址。

一种数据更新方法，其步骤包括：判断更新后的日志项是否大于原始的日志项；如果大于，则在该原始的日志项的索引位置字段标识该原始的日志项为失效数据，更新对应的存储段Segment的失效数据信息；然后将更新后的日志项插入到头部指针处，并更新索引信息；否则，根据更新后的日志项的Value字段更新该原始的日志项的Value字段。

一种数据删除方法，其步骤包括：

1)对待删除数据value的关键字key进行哈希散列计算获得64位的哈希值；

4)根据返回的相对偏移量确定日志项并删除，然后将对应哈希桶的索引数字段的字段值减1、有效标志字段对应的位向量位置置为1，将该日志项的索引位置字段字段置为0，增加该日志项所在存储段Segment的失效数据量。

一种服务器，其特征在于，所述服务器包括链式日志存储结构、哈希索引结构、一用于完成查询功能的数据查询模块、一用于完成数据存储方法的数据存储模块、一用于完成数据更新方法的数据更新模块和一用于完成数据删除方法的数据删除模块。

一种计算机可读存储介质，其特征在于，存储链式日志存储结构、哈希索引结构、一用于完成数据存储方法的数据存储模块、一用于完成数据更新方法的数据更新模块和一用于完成数据删除方法的数据删除模块。

与现有技术方案相比，本发明技术方案具有的优点：

1、本申请中提出的哈希索引结构比现有的哈希结构在存储大量元素时查询速度更快。本发明通过充分利用cache的特性和SIMD指令集，减少了哈希冲突带来的链表遍历、二次哈希计算等额外开销，本发明对现有的哈希索引与本申请提出的哈希索引进行了索引性能测试，结果如图1所示。

从测试结果可以看到，随着数据量的增长，原有的哈希索引插入和查询延迟都呈线性增长，而块状哈希索引则基本保持稳定，在存储一千万条数据的情况下，块状哈希索引相比原有哈希索引平均插入速度快约300ns，平均查询速度快约230ns。

2、使用Chained Log数据存储结构比使用现有内存分配器动态申请内存空间拥有更低的内存碎片率。本发明通过向系统申请固定大小的内存段并拼接成在虚拟内存空间中紧密连续的内存段，使得数据可以连续存储，避免了现有内存分配器在内存分配时存在的内部碎片问题。

3、通过将失效数据较多的内存段中的数据迁移至Chained Log头部，保持整个结构内存的紧密连续性，降低碎片率。

附图说明

图1为索引性能测试结果图；

(a)插入性能测试结果，(b)查询性能测试结果；

图2为本发明数据存储管理结构图。

图3为哈希桶结构设计图。

具体实施方式

下面结合附图和实施例对本发明进行进一步详细描述。

本发明的数据存储管理结构的设计如图2所示。

该结构中每个Segment(存储段)的大小是2MB，数据从头部指针位置插入，若当前Segment剩余空间不足，则通过mmap调用申请一个新的Segment映射到当前Segment的邻接位置。使用一个数组存储所有Segment的元信息，每一元信息包括Segment起始地址、首元素(即Segment中的第一个日志项)地址、前后邻接Segment的元信息在数组中的存放位置(即前后邻接Segment元信息的数组下标，每个数组元素就是一个元信息结构体，之所以要存数组下标是因为本发明在索引结构中只使用了26个比特位来存储数组的下标，这样在存储了大量数据后该字段会溢出，此时就需要循环使用存储元信息的数组，新的Segment元信息会覆盖掉失效的Segment元信息)，以及当前Segment的失效数据量。使用大顶堆统计TopK个失效数据量最多的Segment，当内存使用率低于配置阈值时，从大顶堆中获取失效数据与segment大小的比例最大的Segment对其进行迁移操作，本发明会将Segment中的有效数据重新插入到日志结构的头部位置，之后调用unmap释放空的Segment，保持内存空间的紧密连续。

Log Item(日志项)是Segment的存储单元，InitialSize(初始大小)字段是该Item的初始大小，用于判断日志项的更新策略。因为在该存储结构中数据都是连续存储的，当更新的数据大小大于初始大小时，如果采取就地更新策略则会覆盖紧邻的下一日志项，此时需要把旧的日志项删除，并把新的日志项插入到链式日志头部。Position(索引位置)字段存储该Item的索引在哈希表中的位置，用于支持数据的迁移，在对日志项进行删除或移动时，本发明需要快速反查到该日志项对应的索引项，并对其进行修改。KeyLength(键长度)字段存储关键字key的长度。Key(键)和Value(值)字段则分别存储数据的键值对数据内容。

第二个是哈希索引结构，哈希索引由多个哈希桶组成，每个哈希桶的数据结构如图3所示。

该结构中Num(索引数)字段存储该桶中的有效索引项数量，占用8bit。Flag(有效标志)字段是一个8bit的位向量，被置0的位表示对应的Tag(标签)段中的tagn的值是有效的，用于快速定位新索引项的插入位置。Tag字段是由7个占用16bit的tag组成，tag是key的64位哈希值的前16位，后48位用于在哈希表中定位哈希桶的下标。Offset(偏移量)字段是由7个占用48bit的offset组成，offset是数据的存储位置在链式日志存储结构中的相对偏移量，前26bit存储Segment的元信息数组下标，后22bit存储相对Segment首元素地址的偏移量。当该桶已满时，新的索引项会被插入到最近的空桶中，Next(扩展桶)字段用于记录该空桶的下标，占用48bit。

接下来详述该数据结构的操作流程。

查找：

1)对待查询数据value的关键字key进行哈希散列计算获得64位的哈希值hash。

2)取hash的前16位为tag，根据hash的后48位定位到哈希表中的哈希桶。

3)若Next字段不为空，调用prefetch将Next字段指向的数据映射到cache中。

4)使用SIMD指令集，比较tag和哈希桶的Tag字段，若找到则返回相应的offset值(比如说第3个tag字段，即t3与key的前16位相等，那么返回offset字段中对应的o3这个值；本发明的索引结构中，根据Key字段、Value字段中键值对的对应关系标签字段中的标签值与偏移字段中的相对偏移量一一对应)，否则如果Next字段不为空且查找迭代次数低于5次，则回到步骤3，直到Next字段为空(即从该扩展桶字段指向的哈希桶中进行查找，直到找到该标签值tag或扩展桶字段为空)。

5)获取offset的值后，根据offset前26位从Segment元信息数组中获取Segment信息，并根据offset后22位的偏移量获取Log Item，返回结果。

插入：

1)对待存储数据value的关键字key进行哈希散列计算获得64位的哈希值hash。

3)若哈希桶未满，则在Flag位向量中找到从左边起第一个置1的位，设置Tag中该位置的tag为hash的前16位，对应的offset前26位设置为Chained Log结构当前Segment的元信息数组下标，后22位设置为Head指针与当前Segment的首元素地址的差值。若哈希桶已满且Next字段为空，则采用平方探测的方法在哈希表中找到下一个非满桶，把Next字段赋值为该非满桶的下标，若Next不为空，则直接跳转到该字段标识的哈希桶，然后重复该步骤。

4)更新哈希桶的Num和Flag字段，Num加1，Flag相应的位置置0。

5)向Chained Log结构的Head指针处插入新的Item，若当前的Segment剩余空间不足，则通过mmap申请一个新的Segment映射到当前Segment的邻接位置，并更新Segment元信息数组，新Segment的首元素地址为当前Head指针的地址。

更新：

1)根据更新的Value长度和Log Item的Initial Size判断更新后的Item是否大于原始的Item。

2)如果大于原始的Item大小，则将该Item的Position字段置为0表示该Item为失效数据，更新该Segment的失效数据信息。把新的Item插入到Head指针处，并更新哈希表中的索引信息。

3)如果小于等于原始的Item大小，则只需更新Item的Value字段即可。

删除：

1)执行查找操作，找到相应的索引项和Item项。

2)更新索引项所在哈希桶的Num和Flag字段，Num减1，Flag向量相应位置置为1。

3)更新Item项的Position字段为0。

4)更新Segment元信息，增加该Segment的失效数据量。

Claims

1.一种基于哈希索引结构的数据查询方法，其步骤包括：

4)根据返回的相对偏移量获取日志项，返回结果；

其中，所述哈希索引结构包括多个哈希桶，每一所述哈希桶的数据结构包括：索引数字段、有效标志字段、标签字段、偏移量字段和扩展桶字段；索引数字段，用于存储哈希桶中的有效索引项数量；有效标志字段是一位向量，该位向量的位数与标签字段中的标签数相同，该位向量中置0的位表示对应的标签值是有效的；标签字段中的标签值是Key字段中键的64位哈希值的前16位，后48位为哈希桶的下标；偏移量字段，用于存储Value字段中数据的存储位置在链式日志存储结构中的相对偏移量，根据Key字段、Value字段中键值对的对应关系标签字段中的标签值与偏移字段中的相对偏移量一一对应；当一哈希桶已满时，新的索引项会被插入到与该哈希桶最近的空哈希桶中，扩展桶字段用于记录该空哈希桶的下标；

其中所述链式日志存储结构包括多个存储段Segment和一数组，每一所述存储段Segment的存储单元为一日志项，所述日志项包括初始大小字段、索引位置字段、键长度字段、Key字段和Value字段；其中Value字段用于存储数据，Key字段用于存储数据的键，初始大小字段用于存储日志项的初始大小，索引位置字段用于存储日志项的索引在哈希表中的位置；所述数组用于存储各存储段Segment的元信息。

2.一种基于哈希索引结构的数据存储方法，其步骤包括：

6)向头部指针处插入新的日志项存储该待存储数据value，若当前的存储段Segment剩余空间不足，则申请一个新的存储段Segment映射到当前存储段Segment的邻接位置，并更新存储存储段Segment元信息的数组，新的存储段Segment的首元素地址为当前头部指针的地址；

3.一种基于哈希索引结构的数据更新方法，其步骤包括：判断更新后的日志项是否大于原始的日志项；如果大于，则在该原始的日志项的索引位置字段标识该原始的日志项为失效数据，更新对应的存储段Segment的失效数据信息；然后将更新后的日志项插入到头部指针处，并更新索引信息；否则，根据更新后的日志项的Value字段更新该原始的日志项的Value字段；其中，

所述哈希索引结构包括多个哈希桶，每一所述哈希桶的数据结构包括：索引数字段、有效标志字段、标签字段、偏移量字段和扩展桶字段；索引数字段，用于存储哈希桶中的有效索引项数量；有效标志字段是一位向量，该位向量的位数与标签字段中的标签数相同，该位向量中置0的位表示对应的标签值是有效的；标签字段中的标签值是Key字段中键的64位哈希值的前16位，后48位为哈希桶的下标；偏移量字段，用于存储Value字段中数据的存储位置在链式日志存储结构中的相对偏移量，根据Key字段、Value字段中键值对的对应关系标签字段中的标签值与偏移字段中的相对偏移量一一对应；当一哈希桶已满时，新的索引项会被插入到与该哈希桶最近的空哈希桶中，扩展桶字段用于记录该空哈希桶的下标；

4.一种基于哈希索引结构的数据删除方法，其步骤包括：

4)根据返回的相对偏移量确定日志项并删除，然后将对应哈希桶的索引数字段的字段值减1、有效标志字段对应的位向量位置置为1，将该日志项的索引位置字段字段置为0，增加该日志项所在存储段Segment的失效数据量；

5.如权利要求1或2或3或4所述的方法，其特征在于，所述元信息包括存储段Segment的起始地址、首元素地址、前后邻接存储段Segment的元信息在数组中的存放位置，以及存储段Segment的失效数据量；所述前后邻接存储段Segment的元信息在数组中的存放位置为前后邻接存储段Segment元信息的数组下标；使用大顶堆统计失效数据量最多的前K个存储段Segment，当内存使用率低于配置阈值时，对大顶堆中失效数据与segment大小的比例最大的存储段Segment进行迁移操作，将该存储段Segment中的有效数据重新插入到链式日志存储结构的头部位置，之后释放空的存储段Segment；所述相对偏移量占用48bit，其中前26bit存储存储段Segment的元信息数组下标，后22bit存储相对存储段Segment首元素地址的偏移量。

6.一种服务器，其特征在于，所述服务器包括一用于完成如权利要求1所述查询功能的数据查询模块、一用于完成如权利要求2所述数据存储方法的数据存储模块、一用于完成如权利要求3所述数据更新方法的数据更新模块和一用于完成如权利要求4所述数据删除方法的数据删除模块。

7.一种计算机可读存储介质，其特征在于，一用于完成如权利要求1所述查询功能的数据查询模块、一用于完成如权利要求2所述数据存储方法的数据存储模块、一用于完成如权利要求3所述数据更新方法的数据更新模块和一用于完成如权利要求4所述数据删除方法的数据删除模块。