CN116186338A - 一种哈希表生成方法、装置、设备及存储介质 - Google Patents

一种哈希表生成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116186338A
CN116186338A CN202310226848.5A CN202310226848A CN116186338A CN 116186338 A CN116186338 A CN 116186338A CN 202310226848 A CN202310226848 A CN 202310226848A CN 116186338 A CN116186338 A CN 116186338A
Authority
CN
China
Prior art keywords
hash
hash table
data
slot
slot position
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310226848.5A
Other languages
English (en)
Inventor
朱仲颖
扈天阳
赵蕊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Dameng Database Co Ltd
Original Assignee
Shanghai Dameng Database Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Dameng Database Co Ltd filed Critical Shanghai Dameng Database Co Ltd
Priority to CN202310226848.5A priority Critical patent/CN116186338A/zh
Publication of CN116186338A publication Critical patent/CN116186338A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9014Indexing; Data structures therefor; Storage structures hash tables
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种哈希表生成方法、装置、设备及存储介质。该方法包括:获取第一数据在当前哈希表中的第一哈希槽位置对应的哈希槽状态;若第一哈希槽位置对应的哈希槽状态非目标状态,则根据所述第一哈希槽位置将所述第一数据插入第一哈希槽链表中;若所述第一哈希槽位置对应的冲突数量大于数量阈值,则将所述第一哈希槽位置对应的目标数据插入当前哈希表的下一个哈希表中,通过本发明的技术方案,解决了构建哈希表的效率较低,且构建的哈希表的哈希槽上冲突较多的问题,能够在提高哈希表的构造效率的同时,减少构建操作对性能的影响。

Description

一种哈希表生成方法、装置、设备及存储介质
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种哈希表生成方法、装置、设备及存储介质。
背景技术
哈希表是一种常用的数据结构,能帮助快速定位和查找等值的数据,哈希表常用于连接操作、去重操作以及分组操作等。哈希表的实现方式有很多,例如:拉链法实现的哈希表,即当数据定位到哈希表的同一个槽上时,使用链表的方式,将这些数据连接起来形成链表。使用哈希表的过程如下:
1、创建哈希表。根据给定的大小,创建一个哈希表。
2、构造哈希表数据。将给定数据插入到哈希表中。根据数据的某个特征值,使用特定的哈希函数计算出该特征值对应的哈希值,再根据该哈希值来确定该数据在哈希表中的哈希槽的位置。确定哈希槽后,将数据插入到该哈希槽上的链表中。
在以上使用哈希表的过程中,第一步就需要确定哈希表的大小,第二步再根据实际的数据构造哈希表,如果哈希表的大小较小或者实际构造哈希表的数据较多时,会导致哈希表的每个槽上的链表变长,这样会影响构造哈希表的效率。
传统的动态扩展哈希表方法:
方法一:扩展长度为N的哈希表时,额外增加长度为N的哈希表,将原先哈希表上的数据,根据哈希值%2的方式,来将数据扩展到新的哈希表中。哈希值%2即哈希值除以2取余数,结果可能是0或者1,结果为0时可以将相应数据保留在原哈希表中,结果为1时可以将相应数据移到新哈希表中。新旧哈希表组合起来是一个整体,是一个哈希表。
方法二:扩展长度为N的哈希表时,重新申请一个新的长度为M(M>N,M通常为N的两倍)的哈希表,将旧的哈希表中的全部数据,重新插入到新的哈希表中。
两种方法进行扩展时,都需要对全部的数据进行扩展,效率较低。方法一扩展后,由于数据的不确定性,存在无法解决冲突的情况。且如果扩展后的哈希表仍然冲突过多,则还需要进行下一次扩展,影响性能。
发明内容
本发明实施例提供一种哈希表生成方法、装置、设备及存储介质,解决了构建哈希表的效率较低,且构建的哈希表的哈希槽上冲突较多的问题,能够在提高哈希表的构造效率的同时,减少构建操作对性能的影响。
根据本发明的一方面,提供了一种哈希表生成方法,包括:
获取第一数据在当前哈希表中的第一哈希槽位置对应的哈希槽状态;
若第一哈希槽位置对应的哈希槽状态非目标状态,则根据所述第一哈希槽位置将所述第一数据插入第一哈希槽链表中;
若所述第一哈希槽位置对应的冲突数量大于数量阈值,则将所述第一哈希槽位置对应的目标数据插入当前哈希表的下一个哈希表中。
根据本发明的另一方面,提供了一种哈希表生成装置,该哈希表生成装置包括:
哈希槽状态获取模块,用于获取第一数据在当前哈希表中的第一哈希槽位置对应的哈希槽状态;
第一数据插入模块,用于若第一哈希槽位置对应的哈希槽状态非目标状态,则根据所述第一哈希槽位置将所述第一数据插入第一哈希槽链表中;
第二数据插入模块,用于若所述第一哈希槽位置对应的冲突数量大于数量阈值,则将所述第一哈希槽位置对应的目标数据插入当前哈希表的下一个哈希表中。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的哈希表生成方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的哈希表生成方法。
本发明实施例通过获取第一数据在当前哈希表中的第一哈希槽位置对应的哈希槽状态;若第一哈希槽位置对应的哈希槽状态非目标状态,则根据所述第一哈希槽位置将所述第一数据插入第一哈希槽链表中;若所述第一哈希槽位置对应的冲突数量大于数量阈值,则将所述第一哈希槽位置对应的目标数据插入当前哈希表的下一个哈希表中,解决了构建哈希表的效率较低,且构建的哈希表的哈希槽上冲突较多的问题,能够在提高哈希表的构造效率的同时,减少构建操作对性能的影响。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例中的一种哈希表生成方法的流程图;
图2是本发明实施例中的一种哈希表生成装置的结构示意图;
图3是本发明实施例中的一种电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
实施例一
图1为本发明实施例提供的一种哈希表生成方法的流程图,本实施例可适用于对哈希表进行扩展的情况,该方法可以由本发明实施例中的哈希表生成装置来执行,该装置可采用软件和/或硬件的方式实现,如图1所示,该方法具体包括如下步骤:
S110,获取第一数据在当前哈希表中的第一哈希槽位置对应的哈希槽状态。
其中,所述第一数据为预设的用于创建哈希表的数据,也就是待插入哈希表中的数据。
其中,所述当前哈希表可以为哈希表链表中的第一个哈希表,例如可以是,创建一个普通的哈希表T0,并记录其以下信息:哈希表序号:0(因为当前哈希表是第一个哈希表,哈希表序号从0开始依次递增);当前哈希表的下一个哈希表:初始为空,后续根据实际情况进行更新;当前哈希表的总长度即槽的总个数N:实际总个数值;已经使用的槽的个数USED:初始为0,后续根据实际情况进行更新;每个槽的最大冲突上限CONFLICT_MAX:预设值;每个槽的链表的不同哈希值的数据个数M:初始均为0,后续根据实际情况进行更新;每个槽是否进行扩展:初始均标记为“未扩展”,后续根据实际情况进行更新;哈希表总个数最大值MAX_HASH_NUM:预设值。
其中,所述哈希槽状态可以为目标状态,也可以非目标状态。例如可以是,若哈希槽的标记为“未扩展”,则确定所述哈希槽状态非目标状态,若哈希槽的标记为“已扩展”,则确定所述哈希槽状态为目标状态。
具体的,获取第一数据在当前哈希表中的第一哈希槽位置对应的哈希槽状态的方式可以为:获取所述第一数据的特征值,根据所述第一数据的特征值,使用特定的哈希函数计算出第一数据的特征值对应的哈希值;再根据第一数据的特征值对应的哈希值确定第一数据在当前哈希表中的哈希槽的位置;在确定哈希槽的位置之后,根据哈希槽的位置对应的标记确定哈希槽状态。
S120,若第一哈希槽位置对应的哈希槽状态非目标状态,则根据所述第一哈希槽位置将所述第一数据插入第一哈希槽链表中。
具体的,对第一哈希槽位置对应的哈希槽状态进行判断,若第一哈希槽位置对应的哈希槽状态非目标状态,则根据所述第一哈希槽位置将所述第一数据插入第一哈希槽链表中。
需要说明的是,在将第一数据插入第一哈希槽链表之后,更新第一哈希槽位置对应的冲突数量,例如可以是,若第一数据的哈希值已经存在于第一哈希槽链表中,则冲突数量不变,否则,冲突数量加一。
S130,若所述第一哈希槽位置对应的冲突数量大于数量阈值,则将所述第一哈希槽位置对应的目标数据插入当前哈希表的下一个哈希表中。
需要说明的是,在根据哈希值确定哈希槽位置时,存在哈希值不同,但对应的哈希槽位置相同的情况,此时所述哈希值不同的数据都会插入到该哈希槽上的链表中,该情况称为数据冲突。本发明实施例中所述的冲突数量就是数据冲突的数量,也就是哈希槽链表中存在的不同哈希值个数,例如可以是,若哈希槽链表中包含数据A、B和C,三个数据对应的哈希值分别为H1、H1和H2,则确定该哈希槽链表上的冲突数量为2。
其中,所述数量阈值可以为预先设定的数值,本发明实施例对此不进行限制。
其中,所述第一哈希槽位置对应的目标数据为第一哈希槽位置上的全部数据。
具体的,将目标数据插入当前哈希表的下一个哈希表中的方式可以为:若当前哈希表为哈希表链表中的最后一个哈希表,则需要新建当前哈希表的下一个哈希表,再将目标数据插入当前哈希表的下一个哈希表中,若当前哈希表非哈希表链表中的最后一个哈希表,也就是说哈希表链表中包括当前哈希表和当前哈希表的下一个哈希表,则直接将目标数据插入当前哈希表的下一个哈希表中。
在一个具体的例子中,将哈希表以链表的形式连接起来,形成动态哈希表链表,插入数据时,首先插入到第一个哈希表中,如果待插入的哈希槽已经被扩展(也就是哈希槽状态为目标状态),则将待插入数据插入到下一个哈希表中;否则(也就是哈希槽状态非目标状态),则将待插入数据插入到该哈希槽中,然后判断该哈希槽上的冲突是否过多,如果过多,则将该槽上的全部数据插入到下一个哈希表中,并将该哈希槽状态标记为“已扩展”状态。
本发明实施例只需要将当前哈希表中冲突数量过多的哈希槽上的数据插入到当前哈希表的下一个哈希表中,这样只需要对较少的数据进行处理,可以极大程度地减少数据移动操作带来的性能影响;并且本发明实施例将冲突过多的哈希槽上的全部数据插入到新的哈希表中,可以有效解决冲突过多的问题。
可选的,若所述第一哈希槽位置对应的冲突数量大于数量阈值,则将所述第一哈希槽位置对应的目标数据插入当前哈希表的下一个哈希表中,包括:
获取所述第一哈希槽位置对应的冲突数量;
若所述第一哈希槽位置对应的冲突数量大于数量阈值,则获取所述第一哈希槽位置对应的目标数据;
根据所述目标数据的特征值确定所述目标数据在当前哈希表的下一个哈希表中的第二哈希槽位置;
根据所述第二哈希槽位置将所述目标数据插入第二哈希槽链表中。
其中,每个哈希槽都记录有冲突数量,且每个哈希槽的冲突数量实时更新。
具体的,根据所述目标数据的特征值确定所述目标数据在当前哈希表的下一个哈希表中的第二哈希槽位置的方式可以为:获取所述目标数据的特征值,根据所述目标数据的特征值,使用特定的哈希函数计算目标数据的特征值对应的哈希值;再根据目标数据的特征值对应的哈希值确定目标数据在当前哈希表的下一个哈希表中的第二哈希槽位置。
具体的,根据所述第二哈希槽位置将所述目标数据插入第二哈希槽链表中的方式可以为:若第二哈希槽位置对应的哈希槽状态非目标状态,则根据所述第二哈希槽位置将所述目标数据插入第二哈希槽链表中。
在一个具体的例子中,将当前哈希表的第一哈希槽位置上的数据直接全部插入到当前哈希表的下一个哈希表中(即遍历所述全部数据,根据每个数据的特征值以及预设哈希函数,计算其哈希值,根据哈希值确定新哈希表上的哈希槽位置,将数据插入至该哈希槽链表中),当前哈希表的第一哈希槽位置上的链表设置为空,并标记当前哈希表的第一哈希槽状态为“已扩展”。
可选的,在获取所述第一哈希槽位置对应的冲突数量之前,还包括:
若在第一数据插入第一哈希槽链表之后,哈希槽链表中的哈希值均与所述第一数据的哈希值不同,则对第一哈希槽位置对应的冲突数量进行更新。
具体的,若在第一数据插入第一哈希槽链表之后,哈希槽链表中存在与所述第一数据的哈希值相同的哈希值,则第一哈希槽位置对应的冲突数量不变,若在第一数据插入第一哈希槽链表之后,哈希槽链表中的哈希值均与所述第一数据的哈希值不同,则对第一哈希槽位置对应的冲突数量进行更新。
具体的,对第一哈希槽位置对应的冲突数量进行更新的方式可以为:将所述第一哈希槽位置对应的冲突数量增加预设数值。例如可以是,将所述第一哈希槽位置对应的冲突数量加一。
可选的,还包括:
若第一哈希槽位置对应的哈希槽状态为目标状态,则获取第一数据在当前哈希表的下一个哈希表中的第三哈希槽位置;
若第三哈希槽位置对应的哈希槽状态非目标状态,则根据所述第三哈希槽位置将所述第一数据插入第三哈希槽链表中。
需要说明的是,若哈希表链表中包括:当前哈希表和当前哈希表的下一个哈希表,则将第一数据插入当前哈希表的下一个哈希表中。若当前哈希表为哈希表链表中的最后一个哈希表,则新建当前哈希表的下一个哈希表,并将第一数据插入当前哈希表的下一个哈希表中。
此外,若当前哈希表的下一个哈希表为新建的哈希表,则可以直接将第一数据插入当前哈希表的下一个哈希表中,例如可以是,若第一哈希槽位置对应的哈希槽状态为目标状态,则获取第一数据在当前哈希表的下一个哈希表中的第三哈希槽位置,并根据所述第三哈希槽位置将所述第一数据插入第三哈希槽链表中。也就是,由于当前哈希表的下一个哈希表是新建的,因此无需对第三哈希槽位置对应的哈希槽状态进行判断,直接将第一数据插入当前哈希表的下一个哈希表即可。
可选的,还包括:
若当前哈希表为哈希表链表中的最后一个哈希表,则获取当前哈希表中已使用哈希槽数量和扩展因子;
根据所述当前哈希表中已使用哈希槽数量和扩展因子创建哈希表,并将创建的哈希表确定为当前哈希表的下一个哈希表。
其中,已使用哈希槽数量为已经插入过数据的哈希槽的数量。所述当前哈希表的下一个哈希表的长度可以为当前哈希表中已使用哈希槽数量和扩展因子的乘积。
其中,所述扩展因子可以根据哈希表链表对应的已扩展次数、当前哈希表对应的冲突数量以及当前哈希表的长度中的至少一种来确定,例如可以是,根据哈希表链表对应的已扩展次数确定扩展因子。
具体的,根据所述当前哈希表中已使用哈希槽数量和扩展因子创建哈希表的方式可以为:根据当前哈希表中已使用哈希槽数量和扩展因子确定当前哈希表的下一个哈希表的长度,根据当前哈希表的下一个哈希表的长度创建哈希表。
可选的,获取扩展因子包括:
根据哈希表链表对应的已扩展次数、当前哈希表对应的冲突数量以及当前哈希表的长度确定扩展因子。
在一个具体的例子中,基于动态扩展哈希表的方法,根据给定数据构造哈希表的流程如下:
步骤1):创建一个普通的哈希表T0,并记录其以下信息:
哈希表序号:0(因为当前哈希表是第一个哈希表,哈希表序号从0开始依次递增)
当前哈希表的下一个哈希表:初始为空,后续根据实际情况进行更新;
当前哈希表的总长度即槽的总个数N:实际总个数值;
已经使用的槽的个数USED:初始为0,后续根据实际情况进行更新;
每个槽的最大冲突上限CONFLICT_MAX:预设值;
每个槽的链表的不同哈希值的数据个数M:初始均为0,后续根据实际情况进行更新;
每个槽是否进行扩展:初始均为“未扩展”,后续根据实际情况进行更新;
哈希表总个数最大值MAX_HASH_NUM:预设值;
步骤2):遍历给定的数据,根据每个第一数据的特征值,利用预设哈希函数计算出对应的哈希值,将哈希表T0作为当前待插入哈希表T,进行步骤3);
步骤3):根据该哈希值来确定第一数据在哈希表T中的哈希槽的位置,如果该哈希槽已经被扩展,也就是该哈希槽处于目标状态,则将当前哈希表T的下一个哈希表作为新的哈希表T,进行步骤3);如果该哈希槽没有被扩展,也就是该哈希槽非目标状态,则将第一数据插入到该哈希槽上的链表中,更新该哈希槽对应的M值(如果第一数据的哈希值已经存在于该哈希槽链表中,则M不变,否则M加1),如果M大于CONFLICT_MAX,则进行步骤4);如果M小于等于CONFLICT_MAX,则进行步骤7);
步骤4):如果当前哈希表T存在下一个哈希表,则进行步骤6);否则进行步骤5);
步骤5):扩展哈希表:如果当前哈希表总个数为MAX_HASH_NUM,则进行步骤7);否则设置扩展因子EXTEND_FACTOR,根据当前哈希表T的已使用槽的个数USED以及扩展因子EXTEND_FACTOR来创建新的哈希表,新哈希表的长度N为USED乘以EXTEND_FACTOR,如果创建成功,则记录当前哈希表T的下一个哈希表为新哈希表名称,进行步骤6);如果创建失败,则进行步骤7);
步骤6):移动数据:将哈希表T的该哈希槽上的数据直接全部插入到新创建的哈希表中(即遍历所述全部数据,根据每个数据的特征值以及预设哈希函数,计算其哈希值,根据哈希值确定新哈希表上的哈希槽位置,将数据插入至该哈希槽链表中),哈希表T的该哈希槽上的链表设置为空,并标记哈希表T的该哈希槽为“已扩展”;进行步骤7);
步骤7):继续遍历给定的数据,进行步骤2),直到遍历完成,则构建哈希表完成。
可选的,还包括:
获取探测数据在当前哈希表中的第四哈希槽位置对应的哈希槽状态;
若第四哈希槽位置对应的哈希槽状态非目标状态,则查询第四哈希槽链表,得到与所述探测数据匹配的数据。
其中,扩展因子是系统根据动态哈希表链表当前已扩展次数、当前哈希表的冲突情况、当前哈希表的总长度等综合因素自动设置的数值,例如可以为2。每次扩展哈希表时,该数值不一定相同。
需要说明的是,在构建哈希表后,需要对哈希表进行探测。探测哈希表是指:对于给定的一个探测数据,需要在哈希表中查找与之匹配的数据。此时需要先根据探测数据的特征值,使用哈希函数计算该特征值对应的哈希值,再根据该哈希值来确定该数据在哈希表中的哈希槽的位置,确定哈希槽后,在哈希槽上的链表中,寻找符合要求的数据。
其中,所述探测数据用于对哈希表进行探测。
其中,所述第四哈希槽链表为第四哈希槽上的链表。
通过本发明实施例提供的哈希表生成方法对哈希表进行扩展,能够提升哈希表的探测效率。
可选的,还包括:
若第四哈希槽位置对应的哈希槽状态为目标状态,则根据探测数据对应的哈希值确定探测数据在当前哈希表的下一个哈希表中的第五哈希槽位置对应的哈希槽状态;
若第五哈希槽位置对应的哈希槽状态非目标状态,则查询第五哈希槽链表,得到与所述探测数据匹配的数据。
具体的,根据探测数据对应的哈希值确定探测数据在当前哈希表的下一个哈希表中的第五哈希槽位置对应的哈希槽状态的方式可以为:获取探测数据的特征值,根据探测数据的特征值,使用特定的哈希函数计算探测数据的特征值对应的哈希值;再根据探测数据的特征值对应的哈希值确定探测数据在当前哈希表的下一个哈希表中的第五哈希槽位置,获取第五哈希槽位置对应的标记信息,根据第五哈希槽位置对应的标记信息确定第五哈希槽位置对应的哈希槽状态。
在一个具体的例子中,基于动态扩展哈希表的方法,根据探测数据探测哈希表的流程如下:
步骤1):遍历探测数据,根据探测数据的特征值,利用预设哈希函数计算出对应的哈希值,将哈希表T0作为当前待探测哈希表T,进行步骤2);
步骤2):根据该哈希值来确定该数据在哈希表T中的哈希槽的位置,如果该哈希槽已经被扩展,也就是该哈希槽处于目标状态,则将当前哈希表T的下一个哈希表作为新的哈希表T,进行步骤2);如果该哈希槽没有被扩展,也就是该哈希槽非目标状态,则在该哈希槽上的链表中查找匹配数据,进行步骤3);
步骤3):继续遍历探测数据,进行步骤2),直到遍历完成,则探测哈希表完成。
可选的,还包括:
获取哈希表链表中的每个哈希表对应的哈希槽扩展比例;
将哈希槽扩展比例大于比例阈值的目标哈希表中的未扩展数据插入目标哈希表的下一个哈希表中,并删除所述哈希表链表中的所述目标哈希表。
具体的,获取哈希表链表中的每个哈希表对应的哈希槽扩展比例的方式可以为:获取哈希表链表中的每个哈希表对应的处于目标状态的哈希槽的数量和哈希槽总数;根据每个哈希表对应的处于目标状态的哈希槽的数量和哈希槽总数确定每个哈希表对应的哈希槽扩展比例。
其中,所述比例阈值可以为预先设定,例如可以是85%。
需要说明的是,基于动态扩展哈希表的方法,成功构造哈希表后,如果后续需要探测哈希表,则会进一步简化动态哈希表链表:遍历动态哈希表链表,当发现其中一个哈希表中85%的哈希槽都已经扩展,则将其余15%的哈希槽上的数据也扩展到下一个哈希表中,并将该哈希表从动态哈希表链表中移除。这样做可以减少动态哈希表链表的长度,提高探测效率。
本实施例的技术方案,通过获取第一数据在当前哈希表中的第一哈希槽位置对应的哈希槽状态;若第一哈希槽位置对应的哈希槽状态非目标状态,则根据所述第一哈希槽位置将所述第一数据插入第一哈希槽链表中;若所述第一哈希槽位置对应的冲突数量大于数量阈值,则将所述第一哈希槽位置对应的目标数据插入当前哈希表的下一个哈希表中,解决了构建哈希表的效率较低,且构建的哈希表的哈希槽上冲突较多的问题,能够在提高哈希表的构造效率的同时,减少构建操作对性能的影响。
实施例二
图2为本发明实施例提供的一种哈希表生成装置的结构示意图。本实施例可适用于对哈希表进行扩展的情况,该装置可采用软件和/或硬件的方式实现,该装置可集成在任何提供哈希表生成功能的设备中,如图2所示,所述哈希表生成装置具体包括:哈希槽状态获取模块210、第一数据插入模块220和第二数据插入模块230。
其中,哈希槽状态获取模块,用于获取第一数据在当前哈希表中的第一哈希槽位置对应的哈希槽状态;
第一数据插入模块,用于若第一哈希槽位置对应的哈希槽状态非目标状态,则根据所述第一哈希槽位置将所述第一数据插入第一哈希槽链表中;
第二数据插入模块,用于若所述第一哈希槽位置对应的冲突数量大于数量阈值,则将所述第一哈希槽位置对应的目标数据插入当前哈希表的下一个哈希表中。
上述产品可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
实施例三
图3示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图3所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如哈希表生成方法。
在一些实施例中,哈希表生成方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM13并由处理器11执行时,可以执行上文描述的哈希表生成方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行哈希表生成方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (12)

1.一种哈希表生成方法,其特征在于,包括:
获取第一数据在当前哈希表中的第一哈希槽位置对应的哈希槽状态;
若第一哈希槽位置对应的哈希槽状态非目标状态,则根据所述第一哈希槽位置将所述第一数据插入第一哈希槽链表中;
若所述第一哈希槽位置对应的冲突数量大于数量阈值,则将所述第一哈希槽位置对应的目标数据插入当前哈希表的下一个哈希表中。
2.根据权利要求1所述的方法,其特征在于,若所述第一哈希槽位置对应的冲突数量大于数量阈值,则将所述第一哈希槽位置对应的目标数据插入当前哈希表的下一个哈希表中,包括:
获取所述第一哈希槽位置对应的冲突数量;
若所述第一哈希槽位置对应的冲突数量大于数量阈值,则获取所述第一哈希槽位置对应的目标数据;
根据所述目标数据的特征值确定所述目标数据在当前哈希表的下一个哈希表中的第二哈希槽位置;
根据所述第二哈希槽位置将所述目标数据插入第二哈希槽链表中。
3.根据权利要求2所述的方法,其特征在于,在获取所述第一哈希槽位置对应的冲突数量之前,还包括:
若在第一数据插入第一哈希槽链表之后,哈希槽链表中的哈希值均与所述第一数据的哈希值不同,则对第一哈希槽位置对应的冲突数量进行更新。
4.根据权利要求1所述的方法,其特征在于,还包括:
若第一哈希槽位置对应的哈希槽状态为目标状态,则获取第一数据在当前哈希表的下一个哈希表中的第三哈希槽位置;
若第三哈希槽位置对应的哈希槽状态非目标状态,则根据所述第三哈希槽位置将所述第一数据插入第三哈希槽链表中。
5.根据权利要求1所述的方法,其特征在于,还包括:
若当前哈希表为哈希表链表中的最后一个哈希表,则获取当前哈希表中已使用哈希槽数量和扩展因子;
根据所述当前哈希表中已使用哈希槽数量和扩展因子创建哈希表,并将创建的哈希表确定为当前哈希表的下一个哈希表。
6.根据权利要求5所述的方法,其特征在于,获取扩展因子包括:
根据哈希表链表对应的已扩展次数、当前哈希表对应的冲突数量以及当前哈希表的长度确定扩展因子。
7.根据权利要求1所述的方法,其特征在于,还包括:
获取探测数据在当前哈希表中的第四哈希槽位置对应的哈希槽状态;
若第四哈希槽位置对应的哈希槽状态非目标状态,则查询第四哈希槽链表,得到与所述探测数据匹配的数据。
8.根据权利要求7所述的方法,其特征在于,还包括:
若第四哈希槽位置对应的哈希槽状态为目标状态,则根据探测数据对应的哈希值确定探测数据在当前哈希表的下一个哈希表中的第五哈希槽位置对应的哈希槽状态;
若第五哈希槽位置对应的哈希槽状态非目标状态,则查询第五哈希槽链表,得到与所述探测数据匹配的数据。
9.根据权利要求1所述的方法,其特征在于,还包括:
获取哈希表链表中的每个哈希表对应的哈希槽扩展比例;
将哈希槽扩展比例大于比例阈值的目标哈希表中的未扩展数据插入目标哈希表的下一个哈希表中,并删除所述哈希表链表中的所述目标哈希表。
10.一种哈希表生成装置,其特征在于,包括:
哈希槽状态获取模块,用于获取第一数据在当前哈希表中的第一哈希槽位置对应的哈希槽状态;
第一数据插入模块,用于若第一哈希槽位置对应的哈希槽状态非目标状态,则根据所述第一哈希槽位置将所述第一数据插入第一哈希槽链表中;
第二数据插入模块,用于若所述第一哈希槽位置对应的冲突数量大于数量阈值,则将所述第一哈希槽位置对应的目标数据插入当前哈希表的下一个哈希表中。
11.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的哈希表生成方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-9中任一项所述的哈希表生成方法。
CN202310226848.5A 2023-03-09 2023-03-09 一种哈希表生成方法、装置、设备及存储介质 Pending CN116186338A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310226848.5A CN116186338A (zh) 2023-03-09 2023-03-09 一种哈希表生成方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310226848.5A CN116186338A (zh) 2023-03-09 2023-03-09 一种哈希表生成方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116186338A true CN116186338A (zh) 2023-05-30

Family

ID=86440378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310226848.5A Pending CN116186338A (zh) 2023-03-09 2023-03-09 一种哈希表生成方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116186338A (zh)

Similar Documents

Publication Publication Date Title
CN115099175B (zh) 一种时序网表的获取方法、装置、电子设备和存储介质
CN112860811A (zh) 数据血缘关系的确定方法、装置、电子设备和存储介质
US20160299834A1 (en) State storage and restoration device, state storage and restoration method, and storage medium
CN113868434A (zh) 图数据库的数据处理方法、设备和存储介质
CN116186338A (zh) 一种哈希表生成方法、装置、设备及存储介质
CN113868254B (zh) 图数据库中的实体节点去重方法、设备和存储介质
CN116451619A (zh) 元器件信息处理方法、装置、介质及设备
CN114564149B (zh) 一种数据存储方法、装置、设备及存储介质
CN116028517A (zh) 一种融合数据库系统及电子设备
CN115328736A (zh) 一种探针部署方法、装置、设备和存储介质
CN115905322A (zh) 业务处理方法、装置、电子设备及存储介质
CN115563114A (zh) 一种分布式唯一键约束方法、装置、设备和存储介质
CN115454971A (zh) 数据迁移方法、装置、电子设备及存储介质
CN111581758B (zh) 电网图形拓扑建模方法及计算机可读存储介质
CN117827777B (zh) 一种分布式数据库死锁处理方法、装置、设备及存储介质
CN112783507B (zh) 数据引流回放方法、装置、电子设备及可读存储介质
CN115576902B (zh) 一种标定描述文件的处理方法、装置、设备及介质
CN113326890B (zh) 标注数据处理方法、相关装置及计算机程序产品
CN113377402A (zh) 多版本并发存储方法和装置
CN115827588A (zh) 一种业务全局流水号的生成方法、装置、设备和存储介质
CN118012936A (zh) 一种数据抽取方法、装置、设备及存储介质
CN116909881A (zh) 标定数据检测方法、装置、设备以及可读介质
CN118093048A (zh) 一种多模块启动管理方法、装置、设备及介质
CN116383333A (zh) 数据存储方法、装置、设备及存储介质
CN117806969A (zh) 一种业务的测试方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination