CN114398368A

CN114398368A - 一种散列表创建方法、装置、设备及存储介质

Info

Publication number: CN114398368A
Application number: CN202210009312.3A
Authority: CN
Inventors: 刘近光; 王文生; 张克丰; 包勇军; 张�林; 熊俊
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2022-01-06
Filing date: 2022-01-06
Publication date: 2022-04-26

Abstract

本发明实施例公开了一种散列表创建方法、装置、设备和存储介质，方法由数据存储系统执行，数据存储系统中存储有至少一个散列表，各散列表包括多个原始散列子表，方法包括：针对至少一个原始散列子表，确定原始散列子表的负载因子；当负载因子达到设定比例阈值时，根据预先设置的散列子表的子表创建参数创建新的散列子表作为更新散列子表；将原始散列子表中的已存入键值对插入至更新散列子表中，释放原始散列子表占用的内存空间。本发明实施例提供的方法通过设置多个原始散列子表用于数据存储，使得在创建新的散列子表时，基于内存占用较少的散列子表进行新的散列子表的创建，降低了数据存储频繁时创建新的散列子表所需的内存占用。

Description

一种散列表创建方法、装置、设备及存储介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种散列表创建方法、装置、设备及存储介质。

背景技术

散列表(Hash Table)是常用的数据结构，通常也被称为哈希(Hash)表，用于存储键值对(Key/Value)，简称KV存储。散列表通过计算一个关于键Key的函数，将所需查询的键Key映射到表中一个位置来访问数据记录，加快了查找速度。这个映射函数称为散列(Hash)函数，存放数据的数组称为散列表，每一个散列值对应的存储位置称为桶(bucket)或槽位(slot)。随着插入散列表键值对的数量增多，空闲位置变少，哈希冲突的概率会变得比较高，导致查询效率降低。

在实现本发明的过程中，发明人发现现有技术中至少存在以下技术问题：为了尽可能保证散列表的操作效率，当散列表的负载较高，需要创建一个新散列表。在创建新散列表时，会存在新散列表和旧散列表同时存在的情况，导致占用的服务器峰值内存都比较高，服务器长期内存使用率低的问题。

发明内容

本发明实施例提供了一种散列表创建方法、装置、设备及存储介质，以实现降低散列表的峰值内存占用。

第一方面，本发明实施例提供了一种散列表创建方法，由数据存储系统执行，数据存储系统中存储有至少一个散列表，各散列表包括多个原始散列子表，方法包括：

针对至少一个原始散列子表，确定原始散列子表的负载因子；

当负载因子达到设定比例阈值时，根据预先设置的散列子表的子表创建参数创建新的散列子表作为更新散列子表；

将原始散列子表中的已存入键值对插入至更新散列子表中，释放原始散列子表占用的内存空间。

可选的，在上述方案的基础上，子表创建参数根据原始散列子表的容量确定。

可选的，在上述方案的基础上，确定原始散列子表的负载因子，包括：

根据原始散列子表的容量以及原始散列子表已存入键值对的个数确定原始散列子表的负载因子。

可选的，在上述方案的基础上，根据原始散列子表的容量以及原始散列子表已存入键值对的个数确定原始散列子表的负载因子，包括：

采用如下公式确定原始散列子表的负载因子：

K＝M/N；

其中，K为原始散列子表的负载因子，M为原始散列子表的已存入键值对的个数，N为原始散列子表的容量。

可选的，在上述方案的基础上，还包括：

获取待存储数据以及待存储数据的存储标识；

根据存储标识确定待存储数据对应的目标散列子表索引；

基于目标散列子表索引将待存储数据插入至目标散列子表中。

可选的，在上述方案的基础上，根据存储标识确定待存储数据对应的目标散列子表索引，包括：

根据存储标识和散列子表的数量确定待存储数据对应的目标散列子表索引。

可选的，在上述方案的基础上，基于目标散列子表索引将待存储数据插入至目标散列子表中，包括：

根据存储标识和目标散列子表的当前子表容量确定待存储数据的桶bucket索引；

根据待存储数据的桶bucket索引将待存储数据插入至目标散列子表中。

可选的，在上述方案的基础上，根据存储标识和目标散列子表的当前子表容量确定待存储数据的桶bucket索引，包括：

采用如下公式确定待存储数据的bucket索引：

bucket_index＝hash_value％subtable_capacity；

其中，bucket_index为待存储数据的桶bucket索引，hash_value为存储标识，subtable_capacity为目标散列子表的当前子表容量。

第二方面，本发明实施例还提供了一种散列表创建装置，配置于数据存储系统中，数据存储系统中存储有至少一个散列表，各散列表包括多个原始散列子表，装置包括：

负载因子确定模块，用于针对至少一个原始散列子表，确定原始散列子表的负载因子；

散列子表创建模块，用于当负载因子达到设定比例阈值时，根据预先设置的散列子表的子表创建参数创建新的散列子表作为更新散列子表；

键值对处理模块，用于将原始散列子表中的已存入键值对插入至更新散列子表中，释放原始散列子表占用的内存空间。

第三方面，本发明实施例还提供了一种计算机设备，设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如本发明任意实施例所提供的散列表创建方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所提供的散列表创建方法。

本发明实施例提供的散列表创建方法通过针对至少一个原始散列子表，确定原始散列子表的负载因子；当负载因子达到设定比例阈值时，根据预先设置的散列子表的子表创建参数创建新的散列子表作为更新散列子表；将原始散列子表中的已存入键值对插入至更新散列子表中，释放原始散列子表占用的内存空间。通过设置多个原始散列子表用于数据存储，使得在散列子表的负载较高需要创建新的散列子表时，基于内存占用较少的散列子表进行新的散列子表的创建，降低了创建新的散列子表所需的内存占用，进而降低了散列表的峰值内存占用。

附图说明

图1a是本发明实施例一所提供的一种散列表创建方法的流程示意图；

图1b是本发明实施例一所提供的一种散列表的结构示意图；

图2是本发明实施例二所提供的一种散列表创建装置的结构示意图；

图3是本发明实施例三所提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1a是本发明实施例一所提供的一种散列表创建方法的流程示意图。本实施例可适用于通过散列表的数据结构进行数据存储的情形。该方法可以由散列表创建装置执行，该散列表创建装置可以采用软件和/或硬件的方式实现，例如，该散列表创建装置可配置于数据存储系统的计算机设备中。如图1a所示，该方法包括：

S110、针对至少一个原始散列子表，确定原始散列子表的负载因子。

本实施例提供的散列表创建方法由数据存储系统执行，数据存储系统中存储有至少一个散列表，各散列表包括多个原始散列子表。可以应用在不同场景下，如机器学习场景、业务场景等。不同应用场景下，散列表的实现方式不同，以C++编程语言为例，有标准模板库的std::unordered_map，boost开源组件的boost::unordered_map，谷歌的abseil开源组件的flat_hash_map和node_hash_map等实现方式。当采用上述散列表进行单表的大规模存储时，都存在重新哈希时峰值内存使用过高问题。

在本实施例中，为了避免散列表重新哈希，创建新的散列表时占用内存较大。将散列表划分为多个原始散列子表。也就是说，散列表是由散列子表组成的一维数组，由地址连续的散列子表构成。每个散列子表有其对应的内存地址范围。

在数据存储过程中，任一原始散列子表会随着本子表负载因子的变化来动态调整散列子表的容量。其中，原始散列子表的负载因子表征原始散列子表的已占用容量大小，负载因子越大，表示原始散列子表中已占用容量越大，负载因子越小，表示原始散列子表中已占用容量越小。

可选的，确定所述原始散列子表的负载因子，包括：根据原始散列子表的容量以及原始散列子表已存入键值对的个数确定原始散列子表的负载因子。根据上述可知，原始散列子表的负载因子表征散列子表中已存储键值对的占用情况。而原始散列子表中已存入键值对的个数与原始散列子表中已占用容量强相关。因此，可以根据原始散列子表中已存入键值对的个数和原始散列子表的容量计算原始散列子表的负载因子。

具体的，根据原始散列子表的容量以及原始散列子表已存入键值对的个数确定原始散列子表的负载因子，包括：采用如下公式确定原始散列子表的负载因子：K＝M/N；其中，K为原始散列子表的负载因子，M为原始散列子表的已存入键值对的个数，N为原始散列子表的容量。也就是说，可以将原始散列子表中已存入键值对的个数和原始散列子表的容量的比值作为原始散列子表的负载因子。假设原始散列子表中已存入键值对的个数为4，原始散列子表的容量为8，则原始散列子表的负载因子为4/8＝0.5。

S120、当负载因子达到设定比例阈值时，根据预先设置的散列子表的子表创建参数创建新的散列子表作为更新散列子表。

当原始散列子表的负载因子达到设定比例阈值时，根据预先设置的该散列子表的子表创建参数创建新的散列子表。其中，子表创建参数可以为新的散列子表的容量。可以理解的是，子表创建参数根据原始散列子表的容量确定。可选的，子表创建参数可以为原始散列子表的容量的K倍，K为大于1的整数。示例性的，子表创建参数可以为原始散列子表的容量的2倍。基于内存占用少的原始散列子表的容量确定子表创建参数，使得创建新的散列子表时占用内存较低，避免了峰值时内存的占用。

示例性的，假设原始散列子表的容量为953MB，则可以设置新的散列子表的容量为1906MB，即子表创建参数为新的散列子表的子表容量1906MB。随着向原始散列子表中插入的键值对的数量增多，空闲位置变少，哈希冲突的概率会变得比较高，导致查询效率降低。为了尽可能保证原始散列子表的操作效率，一般情况下，会尽可能保证原始散列子表中有一定的空闲桶。本实施例中，可以用负载因子(load factor)来表示空桶的多少，当负载因子达到设定比例阈值时，需要进行重新哈希(rehash)的操作：创建一个容量为原散列子表容量的2倍的新的散列子表，将原散列子表中存储的键值对重新计算散列值，插入到新的散列子表中；迁移完成后，释放原散列子表占用的内存空间。其中，设定比例阈值可以根据实际情况设置。

在本实施例中，原始散列子表的内存占用小，为散列表的一部分。因为每个原始散列子表承载了整个散列表的一部分，当单个原始散列子表发生重新哈希的过程时，内存峰值使用相比现有技术中对散列表重新哈希，创建新的散列表占用的内存小，避免了峰值时内存的占用。并且对于原始散列表的编辑操作，如增删改查操作，键key的哈希值仅在确定存储标识时计算了一次，操作过程中仅增加了原始散列子表的位与操作，增加的系统开销极小。

图1b是本发明实施例一所提供的一种散列表的结构示意图。图1b中以拉链法实现的散列表为例，对本实施例提供的散列表创建方法进行说明。如图1b所示，散列表在初始化时，指定了原始散列子表数组的大小为8。也就是说，散列表包括8个原始散列子表：散列子表0，散列子表1，散列子表2，散列子表3，散列子表4，散列子表5，散列子表6和散列子表7。当需要在散列表内存储数据时，先计算待存储数据的哈希值，然后根据哈希值以及原始散列子表的个数计算散列子表索引。确定散列子表索引后向散列子表索引对应的原始散列子表中插入待存储数据。其中，散列表每个桶存储的是指向键值对节点的指针，当计算系统为64位的计算机系统时，每个指针为8个字节。假设当前散列表中存储了10亿的键值对，这些键值对均匀的分布在这8个子表中，每个散列子表占用的内存为：1,000,000,000*8/1024/1024/8≈953MB。

随着存储数据的增加，当某个原始散列子表需要进行重新哈希的操作时，该原始散列子表创建的新的散列表占用的内存：953*2＝1906MB，此时原始散列子表的峰值内存为：1,000,000,000*8/1024/1024+1906＝9593MB。而现有技术中，在64位的计算机系统上，每个指针为8个字节。假如当前散列表的容量为10亿，则当前散列表本身占用的内存：1,000,000,000*8/1024/1024≈7629MB。当进行重新哈希时，创建的散列表为原来容量的2倍，为20亿，则新散列表总计占用的内存：2,000,000,000*8/1024/1024≈15258MB。由此可见，本发明实施例提供的散列子表创建的技术方案，相对于现有技术来说，极大的降低了峰值的内存使用，提高了服务器资源使用率。

S130、将原始散列子表中的已存入键值对插入至更新散列子表中，释放原始散列子表占用的内存空间。

在创建新的散列子表后，将原始散列子表中的已存入键值对重新计算散列值，基于重新计算的散列值将原始散列子表中的已存入键值对插入至新的散列子表中；迁移完成后，释放原始散列子表占用的内存空间，完成散列子表的创建。

本发明实施例提供的散列表创建方法通过针对至少一个原始散列子表，确定原始散列子表的负载因子；当负载因子达到设定比例阈值时，根据预先设置的散列子表的子表创建参数创建新的散列子表作为更新散列子表；将原始散列子表中的已存入键值对插入至更新散列子表中，释放原始散列子表占用的内存空间。通过设置多个原始散列子表用于数据存储，使得在散列子表的负载较高需要创建新的散列子表时，基于内存占用较少的散列子表进行新的散列子表的创建，降低了数据存储频繁时创建新的散列子表所需的内存占用，进而降低了散列表的峰值内存占用。

在上述方案的基础上，在进行数据存储时，需要基于散列子表进行数据存储。可选的，数据存储方法包括：获取待存储数据以及待存储数据的存储标识；根据存储标识确定待存储数据对应的目标散列子表索引；基于目标散列子表索引将待存储数据插入至目标散列子表中。

可以理解的是，待存储数据为需要存储至散列表数据结构内的数据。具体的数据根据数据存储的应用场景确定，在此不做限制。示例性的，在机器学习场景，可以用来存储图片、视频的Embedding向量，也可以用于存储大规模稀疏深度学习的模型参数。因此，当数据存储场景为机器学习场景时，待存储数据可以为文本、图片、视频的Embedding向量、模型参数等。其中，Embedding向量可以理解为表征图片、文本、视频等特征的浮点数向量，用于表征图片、文本、视频等内容的特征。待存储数据的存储标识可以为将待存储数据存储至散列表中的位置标识。一般来说，待存储数据的存储标识可以通过待存储数据的哈希值确定。可以通过预先设置的哈希函数计算待存储数据的哈希值，将哈希值作为待存储数据的存储标识，或将哈希值的特征值作为待存储数据的存储标识。其中，哈希函数可以根据实际需求设置，如可以根据哈希函数hasher()计算待存储数据的哈希值。

在进行数据存储时，将待存储数据存储至原始散列子表中。也就是说，在进行数据存储时，需要确定待存储数据要存储的原始散列子表，即确定待存储数据要存储的散列子表索引作为目标散列子表索引。其中，原始散列子表的数量可以根据实际需求设置，在此不作限定。优选可以设置为2的幂次方，以降低散列计算的开销。可选的，根据存储标识确定待存储数据对应的目标散列子表索引，包括：根据存储标识和散列子表的数量确定待存储数据对应的目标散列子表索引。当存储标识为待存储数据的哈希值时，根据哈希值计算目标散列子表索引。可选的，可以采用位与操作计算目标散列子表索引。假设散列表共包括m个散列子表，则目标散列子表索引可以通过subtable_index＝hash_value&0x(m-1)计算得到，其中，subtable_index为目标散列子表索引，hash_value为待存储数据的哈希值。

确定目标散列子表索引后，将待存储数据插入到目标散列子表索引对应的目标散列子表中。可选的，基于目标散列子表索引将待存储数据插入至目标散列子表中，包括：根据存储标识和目标散列子表的当前子表容量确定待存储数据的桶(bucket)索引；根据待存储数据的bucket索引将待存储数据插入至目标散列子表中。可以理解的是，待存储数据的哈希值已经在计算存储标识时计算完成，在将待存储数据的键值对插入目标散列子表时不需要重新进行计算，只需要按照目标散列子表的当前子表容量来计算桶的索引，将待存储数据插入至目标散列子表的桶索引对应的位置即可。其中，根据存储标识和目标散列子表的当前子表容量确定待存储数据的bucket索引，包括：采用如下公式确定待存储数据的bucket索引：bucket_index＝hash_value％subtable_capacity；其中，bucket_index为待存储数据的bucket索引，hash_value为存储标识，subtable_capacity为目标散列子表的当前子表容量。具体的，当存储标识为哈希值时，将存储标识对目标散列子表的当前子表容量取余，即可得到待存储数据在目标散列子表中的桶索引。

可以理解的是，散列子表的创建和数据的存储可以同时执行，也可以先后执行。示例性的，假设数据存储系统中包括原始散列子表1和原始散列子表2，可以同时执行原始散列子表1的新的散列子表的创建以及待存储数据在原始散列子表2中的存储。还可以在数据存储后，计算原始散列子表的负载因子，在负载因子大于阈值时执行新的散列子表的创建。

将数据存储至散列子表中，降低了数据存储频繁时创建新的散列子表所需的内存占用，进而降低了散列表的峰值内存占用。

实施例二

图2是本发明实施例二所提供的一种散列表创建装置的结构示意图。该散列表创建装置可以采用软件和/或硬件的方式实现，例如该散列表创建装置可以配置于数据存储系统的计算机设备中，其中数据存储系统中存储有至少一个散列表，各散列表包括多个原始散列子表。如图2所示，该装置包括负载因子确定模块210、散列子表创建模块220和键值对处理模块230，其中：

负载因子确定模块210，用于针对至少一个原始散列子表，确定原始散列子表的负载因子；

散列子表创建模块220，用于当负载因子达到设定比例阈值时，根据预先设置的散列子表的子表创建参数创建新的散列子表作为更新散列子表；

键值对处理模块230，用于将原始散列子表中的已存入键值对插入至更新散列子表中，释放原始散列子表占用的内存空间。

本发明实施例提供的散列表创建装置通过针对至少一个原始散列子表，确定原始散列子表的负载因子；当负载因子达到设定比例阈值时，根据预先设置的散列子表的子表创建参数创建新的散列子表作为更新散列子表；将原始散列子表中的已存入键值对插入至更新散列子表中，释放原始散列子表占用的内存空间。通过设置多个原始散列子表用于数据存储，使得在散列子表的负载较高需要创建新的散列子表时，基于内存占用较少的散列子表进行新的散列子表的创建，降低了数据存储频繁时创建新的散列子表所需的内存占用，进而降低了散列表的峰值内存占用。

可选的，在上述方案的基础上，子表创建参数根据所述原始散列子表的容量确定。

可选的，在上述方案的基础上，负载因子确定模块210具体用于：

采用如下公式确定原始散列子表的负载因子：

K＝M/N；

可选的，在上述方案的基础上，装置还包括数据存储模块，包括：

存储标识确定单元，用于获取待存储数据以及待存储数据的存储标识；

子表索引确定单元，用于根据存储标识确定待存储数据对应的目标散列子表索引；

数据存储单元，用于基于目标散列子表索引将待存储数据插入至目标散列子表中。

可选的，在上述方案的基础上，子表索引确定单元具体用于：

可选的，在上述方案的基础上，数据存储单元具体用于：

根据存储标识和目标散列子表的当前子表容量确定待存储数据的bucket索引；

根据待存储数据的bucket索引将待存储数据插入至目标散列子表中。

可选的，在上述方案的基础上，数据存储单元具体用于：

采用如下公式确定待存储数据的bucket索引：

bucket_index＝hash_value％subtable_capacity；

本发明实施例所提供的散列表创建装置可执行本发明任意实施例所提供的散列表创建方法，具备执行方法相应的功能模块和有益效果。

实施例三

图3是本发明实施例三所提供的一种计算机设备的结构示意图。图3示出了适于用来实现本发明实施方式的示例性计算机设备312的框图。图3显示的计算机设备312仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图3所示，计算机设备312以通用计算设备的形式表现。计算机设备312的组件可以包括但不限于：一个或者多个处理器316，系统存储器328，连接不同系统组件(包括系统存储器328和处理器316)的总线318。

总线318表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器316或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备312典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备312访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器328可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)330和/或高速缓存存储器332。计算机设备312可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储装置334可以用于读写不可移动的、非易失性磁介质(图3未显示，通常称为“硬盘驱动器”)。尽管图3中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线318相连。存储器328可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块342的程序/实用工具340，可以存储在例如存储器328中，这样的程序模块342包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块342通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备312也可以与一个或多个外部设备314(例如键盘、指向设备、显示器324等)通信，还可与一个或者多个使得用户能与该计算机设备312交互的设备通信，和/或与使得该计算机设备312能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口322进行。并且，计算机设备312还可以通过网络适配器320与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器320通过总线318与计算机设备312的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备312使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器316通过运行存储在系统存储器328中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的散列表创建方法，该方法包括：

当然，本领域技术人员可以理解，处理器还可以实现本发明任意实施例所提供的散列表创建方法的技术方案。

实施例四

本发明实施例四还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明实施例所提供的散列表创建方法，该方法包括：

当然，本发明实施例所提供的一种计算机可读存储介质，其上存储的计算机程序不限于如上的方法操作，还可以执行本发明任意实施例所提供的散列表创建方法的相关操作。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种散列表创建方法，其特征在于，由数据存储系统执行，所述数据存储系统中存储有至少一个散列表，各所述散列表包括多个原始散列子表，所述方法包括：

针对至少一个所述原始散列子表，确定所述原始散列子表的负载因子；

当所述负载因子达到设定比例阈值时，根据预先设置的散列子表的子表创建参数创建新的散列子表作为更新散列子表；

将所述原始散列子表中的已存入键值对插入至所述更新散列子表中，释放所述原始散列子表占用的内存空间。

2.根据权利要求1所述的方法，其特征在于，所述子表创建参数根据所述原始散列子表的容量确定。

3.根据权利要求1所述的方法，其特征在于，所述确定所述原始散列子表的负载因子，包括：

根据所述原始散列子表的容量以及所述原始散列子表已存入键值对的个数确定所述原始散列子表的负载因子。

4.根据权利要求3所述的方法，其特征在于，所述根据所述原始散列子表的容量以及所述原始散列子表已存入键值对的个数确定所述原始散列子表的负载因子，包括：

采用如下公式确定所述原始散列子表的负载因子：

K＝M/N；

其中，K为所述原始散列子表的负载因子，M为所述原始散列子表的已存入键值对的个数，N为所述原始散列子表的容量。

5.根据权利要求1所述的方法，其特征在于，还包括：

获取待存储数据以及所述待存储数据的存储标识；

根据所述存储标识确定所述待存储数据对应的目标散列子表索引；

基于所述目标散列子表索引将所述待存储数据插入至目标散列子表中。

6.根据权利要求5所述的方法，其特征在于，所述根据所述存储标识确定所述待存储数据对应的目标散列子表索引，包括：

根据所述存储标识和所述散列子表的数量确定所述待存储数据对应的目标散列子表索引。

7.根据权利要求6所述的方法，其特征在于，所述基于所述目标散列子表索引将所述待存储数据插入至目标散列子表中，包括：

根据所述存储标识和目标散列子表的当前子表容量确定所述待存储数据的桶bucket索引；

根据所述待存储数据的bucket索引将所述待存储数据插入至目标散列子表中。

8.根据权利要求7中的方法，其特征在于，所述根据所述存储标识和目标散列子表的当前子表容量确定所述待存储数据的bucket索引，包括：

采用如下公式确定所述待存储数据的bucket索引：

bucket_index＝hash_value％subtable_capacity；

其中，所述bucket_index为所述待存储数据的bucket索引，hash_value为所述存储标识，subtable_capacity为所述目标散列子表的当前子表容量。

9.一种散列表创建装置，其特征在于，配置于数据存储系统中，所述数据存储系统中存储有至少一个散列表，各所述散列表包括多个原始散列子表，所述装置包括：

负载因子确定模块，用于针对至少一个所述原始散列子表，确定所述原始散列子表的负载因子；

散列子表创建模块，用于当所述负载因子达到设定比例阈值时，根据预先设置的散列子表的子表创建参数创建新的散列子表作为更新散列子表；

键值对处理模块，用于将所述原始散列子表中的已存入键值对插入至所述更新散列子表中，释放所述原始散列子表占用的内存空间。

10.一种计算机设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如权利要求1-8任一所述的散列表创建方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8任一所述的散列表创建方法。