CN104536958A - 一种复合索引方法,及装置 - Google Patents

一种复合索引方法,及装置 Download PDF

Info

Publication number
CN104536958A
CN104536958A CN201410504325.3A CN201410504325A CN104536958A CN 104536958 A CN104536958 A CN 104536958A CN 201410504325 A CN201410504325 A CN 201410504325A CN 104536958 A CN104536958 A CN 104536958A
Authority
CN
China
Prior art keywords
key assignments
detected
label
key
bucket
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410504325.3A
Other languages
English (en)
Other versions
CN104536958B (zh
Inventor
周开来
孙辉
赵素云
孙东旺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Hangzhou Huawei Digital Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Huawei Digital Technologies Co Ltd filed Critical Hangzhou Huawei Digital Technologies Co Ltd
Priority to CN201410504325.3A priority Critical patent/CN104536958B/zh
Publication of CN104536958A publication Critical patent/CN104536958A/zh
Application granted granted Critical
Publication of CN104536958B publication Critical patent/CN104536958B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种复合索引方法,及装置。其中方法的实现包括:获取待探测键值,对待探测键值进行哈希计算,得到合并哈希代码;将所述合并哈希代码右移设定位得到所述待探测键值的标签;将所述待探测键值的标签以单指令多数据流的位宽为基准进行复制和向量化处理得到待探测键值的标签向量;通过单指令多数据流的比较指令按组比较索引键向量和所述待探测键值的标签向量;根据所述比较结果确定是否探测成功,若探测成功则返回所述待探测键值的索引地址内的元组对象。基于SIMD的并行探测每次可比较多个数据项,降低循环遍历带来的性能开销,并且避免多次计算哈希函数;待探测键值的标签属于部分键值的布谷哈希,可用降低哈希表的空间开销。

Description

一种复合索引方法,及装置
技术领域
本发明实施例涉及计算机技术领域,特别涉及一种复合索引方法,及装置
背景技术
复合索引,也叫组合索引,是大多数关系数据库系统都提供的一种快速查询机制,允许用户可以在多个列上建立索引,如:
create index ComIdx on tableX(col1,col2,col3);
这种索引通常都是基于传统链式Hash(哈希)结构来实现的。链式Hash采用链表来处理Hash碰撞问题,但若hash函数选择不当,或者数据偏斜,会造成链表过长,一方面造成大量空间浪费,另一方面使得O(1)量级的Hash查找蜕化成O(n)量级的顺序查找。
2001年提出了一种新的Hash冲突处理技术:Cuckoo Hashing(布谷哈希)技术,其核心思想是使用2个hash函数h1和h2,为每个key产生2个候选插入位置,尽量均匀的利用存储空间。
经典布谷哈希的单桶容量太小,很容易造成超长插入路径,甚至无限循环,且空间利用率也不高,因此后来又陆续出现多种扩展版本,主要有以下几种改进方式:
1、通过增加哈希函数进一步提高空间利用率;
2、增加哈希表,每个哈希函数对应多个哈希表,每次选择多张表中空余位置进行放置;
3、改进存储方式,使用key-overload(键值过载)的方式存储,overload(过载)通常用一个指针引用表示。
布谷哈希作为数据库复合索引存在以下问题:1、布谷哈希需要计算多次hash函数,同时遍历hash桶的多个数据项;2、数据库复合索引的key是多个属性的组合,每个组合类型各异,大小不一,会大大增加Hash表的结构复杂性和空间开销。因此目前布谷哈希的复合索引方案效率较低。
发明内容
本发明实施例提供了一种复合索引方法,及装置,用于提高复合索引的效率。
本发明实施例一方面提供了一种复合索引方法,包括:
获取待探测键值,对待探测键值进行哈希计算,得到合并哈希代码;将所述合并哈希代码右移设定位得到所述待探测键值的标签;
将所述待探测键值的标签以单指令多数据流的位宽为基准进行复制和向量化处理得到待探测键值的标签向量;
通过单指令多数据流的比较指令按组比较索引键向量和所述待探测键值的标签向量;
根据比较的结果确定是否探测成功,若探测成功则返回所述待探测键值的索引地址内的元组对象。
结合一方面的实现方式,在第一种可能的实现方式中,所述通过单指令多数据流的比较指令按组比较索引键向量和所述待探测键值的标签向量,包括:
使用第一哈希函数计算所述待探测键值所属的第一桶,使用第二哈希函数计算所述待探测键值所属的第二桶;将第一桶和第二桶中的所述待探测键值的标签的序列以所述单指令多数据流的位宽为单位进行分组存入目标寄存器中;
每次从所述第一桶中取出所述待探测键值内的设定个数键值与所述探测键值的标签向量进行比较,并记录比较结果得到第一位掩码;从所述第一桶中,按与所述待探测键值的标签相同的顺序取出所述设定个数的指针,与所述第一位掩码执行逻辑与操作;每次从所述第二桶中取出所述待探测键值内的所述设定个数键值与所述探测键值的标签向量进行比较,并记录比较结果得到第二位掩码;从所述第二桶中,按与所述待探测键值的标签相同的顺序取出所述设定个数的指针,与所述第二位掩码执行逻辑与操作;将两次逻辑与操作得到的值进行逻辑或操作,直到第一桶内和第二桶内的所有待探测键值比较完毕;
所述根据比较的结果确定是否探测成功,若探测成功则返回所述待探测键值的索引地址内的元组对象,包括:
依据所述逻辑或操作的结果确定探测是否成功,若探测成功则返回所述操作结果的指针所指向的映像表中的键组对象的引用地址内的元组对象。
结合一方面的第一种可能得实现方式,在第二种可能的实现方式中,在返回所述操作结果的指针所指向的映像表中的键组对象的引用地址内的元组对象之前,还包括:
对所述操作结果的指针所指向的映像表中的键组对象的成员逐个匹配;
所述返回所述操作结果的指针所指向的映像表中的键组对象的引用地址内的元组对象,包括:若匹配成功,则返回所述键组对象的引用地址内的元组对象,否则返回探测失败。
结合一方面的第一种可能得实现方式,在第三种可能的实现方式中,所述元组对象存储在实体表中,实体表以块的方式组织存储在磁盘内,每个块存储预定数量的元组对象。
结合一方面的第三种可能得实现方式,在第四种可能的实现方式中,所述映像表为所述实体表的索引列的投影,以顺序存储的方式分布在连续的内存页上;在所述映像表中设置有地址列,用来存储元组对象所在磁盘物理地址。
结合一方面的第四种可能得实现方式,在第五种可能的实现方式中,所述方法,还包括:
检测所述映像表是否存在重复,若存在,则合并对应的元组对象,将被合并的各元组对象对应的地址以地址链的形式存储,在所述索引列的映射表存储所述地址链的首地址。
结合一方面的第一种可能得实现方式,在第六种可能的实现方式中,在获取待探测键值之前,还包括:
构造部分键布谷哈希表,所述部分键布谷哈希表包含n个桶,所述n由所述映像表的大小和最大填充度确定,每个桶包含2m个槽;其中,前m个槽存储所述复合索引键的待探测键值的标签,后m个槽存储复合索引在印象表中的偏移地址的指针;m的大小满足使得单个桶中的所有槽中的待探测键 值的标签总位长为所述单指令多数据流的位宽的整数倍。
结合一方面的第一、第二、第三、第四、第五或者第六种可能得实现方式,在第七种可能的实现方式中,所述方法,还包括:
接收待插入的数据,并获取待插入数据的键值的标签;所述待插入数据的键值的标签由所述待插入数据的键值经哈希计算得到哈希代码后右移所述设定位得到;
选择一个哈希函数计算所述待插入数据的键值的标签的第一位置对应的桶i,选择另一哈希函数计算所述待插入数据的键值的标签的第二位置对应的桶j;其中j为所述i与所述待插入数据的键值的标签的异或结果;
若所述桶i和/或所述桶j空闲,则将所述待插入的数据插入任意一个空闲的桶中;若所述桶i和所述桶j均满,则按照预定算法踢出所述待插入的数据将占据的条目,并将被踢出的条目作为待插入数据,计算踢出的条目所属的桶,直到被踢出的条目被插入桶中。
结合一方面的第七种可能得实现方式,在第八种可能的实现方式中,所述方法,还包括:
若踢出条目的次数大于预定阈值则更换用于计算待插入数据的键值的标签对应的桶的哈希函数,或者增大哈希表的桶数组。
本发明实施例二方面提供了一种复合索引装置,包括:
标签计算单元,用于获取待探测键值,对待探测键值进行哈希计算,得到合并哈希代码;将所述合并哈希代码右移设定位得到所述待探测键值的标签;
向量计算单元,用于将所述待探测键值的标签以单指令多数据流的位宽为基准进行复制和向量化处理得到待探测键值的标签向量;
比较单元,用于通过单指令多数据流的比较指令按组比较索引键向量和所述待探测键值的标签向量;
探测单元,用于根据所述比较单元的比较结果确定是否探测成功,若探测成功则返回所述待探测键值的索引地址内的元组对象。
结合二方面的实现方式,在第一种可能的实现方式中,所述比较单元包括:
桶计算单元,用于使用第一哈希函数计算所述待探测键值所属的第一桶,使用第二哈希函数计算所述待探测键值所属的第二桶;将第一桶和第二桶中的所述待探测键值的标签的序列以所述单指令多数据流的位宽为单位进行分组存入目标寄存器中;
比较计算单元,每次从所述第一桶中取出所述待探测键值内的设定个数键值与所述探测键值的标签向量进行比较,并记录比较结果得到第一位掩码;从所述第一桶中,按与所述待探测键值的标签相同的顺序取出所述设定个数的指针,与所述第一位掩码执行逻辑与操作;每次从所述第二桶中取出所述待探测键值内的所述设定个数键值与所述探测键值的标签向量进行比较,并记录比较结果得到第二位掩码;从所述第二桶中,按与所述待探测键值的标签相同的顺序取出所述设定个数的指针,与所述第二位掩码执行逻辑与操作;将两次逻辑与操作得到的值进行逻辑或操作,直到第一桶内和第二桶内的所有待探测键值比较完毕;
所述探测单元,具体用于依据所述比较计算单元计算的逻辑或操作的结果确定探测是否成功,若探测成功则返回所述操作结果的指针所指向的映像表中的键组对象的引用地址内的元组对象。
结合二方面的第一种可能得实现方式,在第二种可能的实现方式中,所述探测单元,还用于在返回所述操作结果的指针所指向的映像表中的键组对象的引用地址内的元组对象之前,对所述操作结果的指针所指向的映像表中的键组对象的成员逐个匹配;所述返回所述操作结果的指针所指向的映像表中的键组对象的引用地址内的元组对象,包括:若匹配成功,则返回所述键组对象的引用地址内的元组对象,否则返回探测失败。
结合二方面的第一种可能得实现方式,在第三种可能的实现方式中,所述元组对象存储在实体表中,实体表以块的方式组织存储在磁盘内,每个块存储预定数量的元组对象。
结合二方面的第三种可能得实现方式,在第四种可能的实现方式中,所述映像表为所述实体表的索引列的投影,以顺序存储的方式分布在连续的内存页上;在所述映像表中设置有地址列,用来存储元组对象所在磁盘物理地址。
结合二方面的第四种可能得实现方式,在第五种可能的实现方式中,所述装置,还包括:
冗余处理单元,用于检测所述映像表是否存在重复,若存在,则合并对应的元组对象,将被合并的各元组对象对应的地址以地址链的形式存储,在所述索引列的映射表存储所述地址链的首地址。
结合二方面的第一种可能得实现方式,在第六种可能的实现方式中,所述装置,还包括:
哈希表构造单元,用于在所述标签计算单元获取待探测键值之前,构造部分键布谷哈希表,所述部分键布谷哈希表包含n个桶,所述n由所述映像表的大小和最大填充度确定,每个桶包含2m个槽;其中,前m个槽存储所述复合索引键的待探测键值的标签,后m个槽存储复合索引在印象表中的偏移地址的指针;m的大小满足使得单个桶中的所有槽中的待探测键值的标签总位长为所述单指令多数据流的位宽的整数倍。
结合二方面的第一、第二、第三、第四、第五或者第六种可能得实现方式,在第七种可能的实现方式中,所述装置,还包括:
插入计算单元,用于接收待插入的数据,并获取待插入数据的键值的标签;所述待插入数据的键值的标签由所述待插入数据的键值经哈希计算得到哈希代码后右移所述设定位得到;
选择一个哈希函数计算所述待插入数据的键值的标签的第一位置对应的桶i,选择另一哈希函数计算所述待插入数据的键值的标签的第二位置对应的桶j;其中j为所述i与所述待插入数据的键值的标签的异或结果;
插入执行单元,用于若所述桶i和/或所述桶j空闲,则将所述待插入的数据插入任意一个空闲的桶中;若所述桶i和所述桶j均满,则按照预定算法踢出所述待插入的数据将占据的条目,并将被踢出的条目作为待插入数据,计算踢出的条目所属的桶,直到被踢出的条目被插入桶中。
结合二方面的第七种可能得实现方式,在第八种可能的实现方式中,所述装置,还包括:
插入控制单元,用于若所述插入执行单元踢出条目的次数大于预定阈值则更换用于计算待插入数据的键值的标签对应的桶的哈希函数,或者增大哈 希表的桶数组。
从以上技术方案可以看出,本发明实施例具有以下优点:基于SIMD(Single Instruction Multiple Data,单指令多数据流)的并行探测方法,每次可比较多个数据项,降低循环遍历带来的性能开销,并且避免多次计算hash函数;待探测键值的标签属于部分键值形式的布谷哈希,可以降低哈希表的空间开销。因此,可以提高复合索引的效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图
图1A为本发明实施例方法流程示意
图1B为本发明实施例方法流程示意
图2为本发明实施例索引结构示意
图3为本发明实施例方法流程示意
图4为本发明实施例索引项结构示意
图5A为本发明实施例条目插入过程示意
图5B为本发明实施例条目插入过程示意
图5C为本发明实施例条目插入过程示意
图6为本发明实施例条目插入无限循环示意
图7为本发明实施例方法流程示意
图8A为本发明实施例装置结构示意
图8B为本发明实施例装置结构示意
图9为本发明实施例装置结构示意
图10为本发明实施例装置结构示意
图11为本发明实施例装置结构示意
图12为本发明实施例装置结构示意
图13为本发明实施例装置结构示意
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例提供了一种复合索引方法,如图1A所示,包括:
101A:获取待探测键值,对待探测键值进行哈希计算,得到合并哈希代码;将上述合并哈希代码右移设定位得到上述待探测键值的标签;
102A:将上述待探测键值的标签以单指令多数据流的位宽为基准进行复制和向量化处理得到待探测键值的标签向量;
103A:通过单指令多数据流的比较指令按组比较索引键向量和上述待探测键值的标签向量;
104A:根据比较的结果确定是否探测成功,若探测成功则返回上述待探测键值的索引地址内的元组对象。
本发明实施例,基于SIMD(Single Instruction Multiple Data,单指令多数据流)的并行探测方法,每次可比较多个数据项,降低循环遍历带来的性能开销,并且避免多次计算hash函数;待探测键值的标签属于部分键值形式的布谷哈希,可以降低哈希表的空间开销。因此,可以提高复合索引的效率。
本发明实施例还提供了以上步骤103A和104A的可选实现方案,需要说明的是按组比较的方式还可以有其他方式并不仅限于本发明实施例提供了一下方案,以下举例不应理解为对本发明实施例的唯一性限定,如图1B所示,具体如下:
101B:使用第一哈希函数计算上述待探测键值所属的第一桶,使用第二哈希函数计算上述待探测键值所属的第二桶;将第一桶和第二桶中的上述待探测键值的标签的序列以上述单指令多数据流的位宽为单位进行分组存入目标寄存器中;
102B:每次从上述第一桶中取出上述待探测键值内的设定个数键值与上 述探测键值的标签向量进行比较,并记录比较结果得到第一位掩码;从上述第一桶中,按与上述待探测键值的标签相同的顺序取出上述设定个数的指针,与上述第一位掩码执行逻辑与操作;每次从上述第二桶中取出上述待探测键值内的上述设定个数键值与上述探测键值的标签向量进行比较,并记录比较结果得到第二位掩码;从上述第二桶中,按与上述待探测键值的标签相同的顺序取出上述设定个数的指针,与上述第二位掩码执行逻辑与操作;将两次逻辑与操作得到的值进行逻辑或操作,直到第一桶内和第二桶内的所有待探测键值比较完毕;
103B:依据上述逻辑或操作的结果确定探测是否成功,若探测成功则返回上述操作结果的指针所指向的映像表中的键组对象的引用地址内的元组对象。
进一步地,由于本发明实施例采用的待探测键值的标签是缺省的键值信息,因此损失了一部分的键值信息,存在误判的可能性,因此可以继续对已经探测成功的指针指向的数据进一步进行逐个匹配来验证,避免误判,具体方案如下:在返回上述操作结果的指针所指向的映像表中的键组对象的引用地址内的元组对象之前,还包括:
对上述操作结果的指针所指向的映像表中的键组对象的成员逐个匹配;
上述返回上述操作结果的指针所指向的映像表中的键组对象的引用地址内的元组对象,包括:若匹配成功,则返回上述键组对象的引用地址内的元组对象,否则返回探测失败。
本发明实施例还提供了实体表的实现方案如下:上述元组对象存储在实体表中,实体表以块的方式组织存储在磁盘内,每个块存储预定数量的元组对象。
本发明实施例还提供了映像表的构造方法,在本发明实施例中映像表对应的是Compound Keys Image Table(复合键像表),具体如下:上述映像表为上述实体表的索引列的投影,以顺序存储的方式分布在连续的内存页上;在上述映像表中设置有地址列,用来存储元组对象所在磁盘物理地址。
进一步地,本发明实施例还提供了映像表中出现重复项目时的处理方法,具体如下:上述方法,还包括:检测上述映像表是否存在重复,若存在,则 合并对应的元组对象,将被合并的各元组对象对应的地址以地址链的形式存储,在上述索引列的映射表存储上述地址链的首地址。
本发明实施例还提供了构造Partial-Key(部分键)布谷哈希表的具体方案,如下:在获取待探测键值之前,还包括:构造部分键布谷哈希表,上述部分键布谷哈希表包含n个桶,上述n由上述映像表的大小和最大填充度确定,每个桶包含2m个槽;其中,前m个槽存储上述复合索引键的待探测键值的标签,后m个槽存储复合索引在印象表中的偏移地址的指针;m的大小满足使得单个桶中的所有槽中的待探测键值的标签总位长为上述单指令多数据流的位宽的整数倍。
本发明实施例还提供了计算索引项和计算插入位置的具体方案,如下:上述方法,还包括:
接收待插入的数据,并获取待插入数据的键值的标签;上述待插入数据的键值的标签由上述待插入数据的键值经哈希计算得到哈希代码后右移上述设定位得到;
选择一个哈希函数计算上述待插入数据的键值的标签的第一位置对应的桶i,选择另一哈希函数计算上述待插入数据的键值的标签的第二位置对应的桶j;其中j为上述i与上述待插入数据的键值的标签的异或结果;
若上述桶i和/或上述桶j空闲,则将上述待插入的数据插入任意一个空闲的桶中;若上述桶i和上述桶j均满,则按照预定算法踢出上述待插入的数据将占据的条目,并将被踢出的条目作为待插入数据,计算踢出的条目所属的桶,直到被踢出的条目被插入桶中。
由于插入的过程可能出现无限循环,本发明实施例提供了如下解决方案:上述方法,还包括:若踢出条目的次数大于预定阈值则更换用于计算待插入数据的键值的标签对应的桶的哈希函数,或者增大哈希表的桶数组。
以下实施例将分别就本发明实施例的设备内部的存储结构、索引结构等的具体构造进行详细的举例说明。
一、核心设备的内部结构及描述:
本发明实施例提供的SIMD敏感的基于Partial-Key(部分密钥)布谷哈希的索引结构如图2所示:
其中物理存储结构分为三层:从下至上依次为:Disk(磁盘)、Memory(存储器)以及SIMD register(SIMD寄存器),在图2中以横向虚线分隔。
投影(Project)是数据库的操作动词。
从中左向中右的箭头方向示意为偏移指针(offset pointer)的指向。
SIMD边界(SIMD boundary)对应第③个表。
在以上索引结构中,主要包含四个部分,包括三个表和一个SIMD寄存器,分别为:
①、实体表,以块的方式组织存储在Disk上,每个块中存储多个元组(Tuple)。
②、索引列的映像表(即:compound keys inage table复合键像表),该表是实体表在索引列上的投影,以顺序存储的方式分布在连续的内存页上,映像表中增设了一地址(address,Addr)列,用来存储相应元组所在磁盘物理地址,若投影后的复合索引存在多个重复值,则在映像表中消除重复值,并将每个重复值对应的元组地址构造一地址链,表中存储地址链的首地址。
③、Partial-Key布谷哈希表(partial-key cuckoo hash table,部分键布谷哈希表),该表在传统的布谷哈希表结构上进行扩展,设计n个Buckets(哈希桶),每个Buckets放置2m个Slots(槽),前m个Slots用来存放Partial-Key,即每个Key的Tag,后m个Slots按照Tags相同的顺序存放每个Key在Image Table中的偏移地址,这样设计有利于将Tags和Pointers(指针)批量加载到SIMD寄存器,提高数据的局部性和Cache的利用率。
④、SIMD寄存器,每次从Hash表的桶中取SIMD位宽的Tags或Pointers,构造一个位向量加载到SIMD寄存器中进行向量运算。
基于以上索引结构,本发明实施例提供的方法实施例以复合索引结构的构建过程进行举例说明如下,图3所示,请一并参阅图2,包括如下步骤:
301:构造复合键表(Compound Keys Image Table),即构造图2中的表②: 
对实体表(图2中的表①)的索引列进行投影操作,将其投影在内存中一个映像表中,映像表以顺序存储的方式分布在连续的内存页上,表增加一地址列,用来存储相应元组所在磁盘物理地址,若复合索引存在多条对应元 组,则构造一地址链,表中存储地址链的首地址
302:构造Partial-Key(部分键)布谷哈希表; 
部分键的布谷哈希表由n个Buckets(桶)构成,n的大小由映像表的size(大小)和最大填充度阈值共同决定,每个Bucket由2m个Slots(槽)组成,其中前m个Slots用来存储每个复合索引键的Partial-Key(部分键),称之为Tag(标签),后m个Slots用来存储每个复合索引在映像表中的偏移地址指针offset pointer,Tag与pointer需成对存储和维护,且需要保持顺序一致性,这样设计是为了提高数据的局部性,提高Cache的命中率。
因Tags需要以SIMD位宽为单位加载到SIMD寄存器中,为使内存对齐,m的大小需满足使得单个桶中所有Slots中的Tags的总位长为SIMD位宽的整数倍。假若每个Tag为32位,SIMD位宽为128,则m必须设置为4的整数倍
303:构造索引项;
从映像表中任取一个键组(key1,key2,…,keyk),对每个键Keyi依据其数据类型不同,选择合适的hash函数hi,计算其hashcode(哈希代码)值hi(keyi),再利用Hash合并函数hm,将k个hashcode进行Merge(合并),得到合并后的hashcode值hm(h1(key1),h2(key2),…,hk(keyk)),记作MergeHashCode,如图4所示。
304:计算插入位置;
设计一个哈希函数Hb1,其输入为一个正整数MergeHashCode,输出一个0~n-1之间的随机整数,n为桶数组的size。
那么计算得到的桶i为:i=Hb1(MergeHashCode)
另一个候选位置j的计算以Hb2哈希函数来计算,因为Cuckoo Hash(布谷哈希)在插入时,会频繁踢出已经存在Slot中的其他Item(条目),而计算被踢出的Item的另一个插入位置时,必须依赖全键,这就会造成频繁的引用开销,为避免插入时的引用开销,又能快速定位另一个候选插入位置,因此在设计Hb2哈希函数时需要一定的技巧,这里给出一个设计方案:
uint32 Tag=MergeHashCode>>x;//Tag即Partial-Key
j=i xor Tag;
可见上式中j是一个部分依赖于i的随机变量,依赖程度取决于右移所舍弃的位数X的大小决定,即Tag引入的随机量大小。之所以这么设计,是因为i能够被以j和Tag为参数的计算公式重新计算出来,如下式:
i=j xor Tag
因为xor操作具有可逆性,这一特性确保索引项在候选的两个bucket之间移动时,无论索引下标是i还是j,从一个候选索引idx计算其对应的另一个候选索引idx’是可能的,只要tag与Pointer同时存储在idx桶中相应的Slot上,即:
idx’=idx XOR tag
这样,插入操作能够使用hash表中Slot所存储的Tag信息,而不用检索全键keys值,也可计算出相互对应的候选bucket(桶)索引,如此,即可减少Pointer的引用开销。
305:插入索引项。
计算i和j,构造插入的索引项的条目X(ItemX),ItemX在插入和移动时,Tag及其对应的Pointer必须同步移动,Tag和Pointer各占用一个slot可以称为slot pair
对于两个候选桶buckets[i]和buckets[j],如果有空slot pair,则任选一空slot pair直接插入ItemX;如果均满,则将buckets[i]中最先插入的索引项ItemY踢出,将ItemX插入在ItemY所占据的slot pair;然后,将被踢出的ItemY作为新的插入项,计算ItemY的另一个候选桶索引idx’,若桶buckets[idx’]有空slot pair,则将ItemY插入在buckets[idx’]中;否则,再将buckets[idx’]中最早插入的项ItemZ踢出,循环执行本段的步骤,直到找到空slot pair将被踢出的条目插入为止,并完成插入过程。
如图5A~5C所示,为ItemX的插入过程,第一次计算得到图5A所示踢出了Itemb,插入ItemX;第二次计算如图5B所示踢出了Itemg,插入Itemb,第三次计算找到空闲的slot pair插入被踢出的Itemg结束插入过程。
在本发明实施例中,上述插入过程有可能进入无限循环过程中,如图6所示,待插入的条目的键值为x,陷入无限循环的踢出条目的过程中。本发明实施例可以采用设置一个插入次数的阈值(对应也是踢出条目的键值),当达 到该阈值时,说明插入路径已经很大,或者进入无限插入循环中,应强制退出插入循环,此时可以更改Hash函数或者调整hash表的桶数组n的大小,以提高容量。
基于以上复合索引结构,本发明实施例给出了探测过程,如图7所示,具体如下:
假定待探测的键值为k1,k2,…,kk,记作SearchKeys,则探测过程如图
①、将SearchKeys(待探测的键值)进行Hash计算,计算其<MergeHashCode>合并哈希代码。使用Tag=MergeHashCode>>x;计算SearchKeys的Tag(类);其中>>是右移运算符;
②、将Tag按SIMD(Single Instruction Multiple Data,单指令多数据流)位宽为基准进行复制和向量化处理,然后加载到SIMD寄存器中,图7假设SIMD位宽为128,Tag为32位,则将Tag复制为4个双字[TS,TS,TS,TS],其中每个TS=Tag,然后加载到SIMD寄存器中;
③、用两个Hash函数Hb1和Hb2计算出SearchKeys的位置i和j,将桶i和桶j中的Tags序列以SIMD位宽为单位进行分组,图7中假设Tag和Pointer(指针)都是32位,则每4个keys(键值)的Tags打包成一组,依次加入到SIMD寄存器中;
④、每次从Bucket(桶)中取4个keys的Tag加入到SIMD寄存器,如[T1,T2,T3,T4],然后与searchKeys的Tag向量[Ts,Ts,Ts,Ts]执行SIMD的比较指令cmp-eq(cmp-eq为:比较指令,判断两组操作数是否相等),比较指令对源寄存器和目标寄存器(target)中的元素进行比较,并根据比较结果将目标寄存器中的对应双字设为全0(条件不成立)或者全1(条件成立),通过该操作会产生一个128位的位掩码mask。在本发明实施例中目标寄存器英文为target,源寄存器和目标寄存器分别存放在1组操作数中,中央处理器运算后把结果存放到目标计算器。
⑤、每次按与Tag相同的顺序依次取4个Pointers(指针)(设Pointer与Tag都是32位),如[p1,p2,p3,p4],加载到SIMD的寄存器,然后与④所得到掩码mask执行SIMD-And(逻辑与)操作;
⑥、重复④⑤两步操作,直到两个候选桶i和j的所有Tags都加载比 较完毕,并把每次SIMD-And的结果与前次SIMD-AND的结果执行SIMD-OR(逻辑或)操作;
⑦经过多次的SIMD-OR操作,最终匹配的结果保留在SIMD位向量的寄存器中,通过执行SIMD-OR-Across操作,将结果Px置放在SIMD最左边的Slot中;
在本步骤中,目标寄存器和源寄存器是存在两个操作寄存器的情况下相对而言的,这里就是存放结果的寄存器不用特指,也可以不是专用寄存器。
⑧、通过SIMD的Extract操作(extact是SIMD指令中的一个,把操作向量提取到内存),将Px从SIMD位向量中提取到内存变量中,接下来判别Px是否为0,若为0,则表明探测失败,数据表中不存在要探测的SearchKeys;若Px不为0,则继续往下处理;
⑨、由于Tag通过移位舍弃只抽取了部分键值信息,损失了一部分键值信息,存在误判的可能,所以对Tag匹配成功的指针Px所指向的Image Table(像表)中的键组对象<(k’1,k’2,…,k’k),Addr>(和起始的搜索键k1,k2,…,kk相对,这里指最后检索到的结果,Addr是索引值,指向具体数据),还需要继续对k’1,k’2,…,k’k逐个匹配,若成功,则根据Addr引用地址返回元组对象,否则,探测失败,返回为空。
说明:虽然存在误判,但由于经过Tag比较的过滤,因此只要Tag标记设计的合理,保留有足够的键值信息,可使误判率保持在较低的水平。
在本发明实施例中,Image Table可以不局限于内存中,探测时加载即可。
另外,构造索引项的方法可以有很多种,计算结果满足重复率较低,可以较好的代表索引内容即可。如:可以把候选键拼接成有序字符串,然后计算Hash值等。另外,候选位置可以扩展为多个,也可以采用其公式计算候选位置的切换关系。
本发明实施例,改进了传统链式Hash的存储空间和查询效率问题,可利用较少的计算换取较大的空间利用率,且能保证在Hash碰撞较大的情况下,仍能够带来平均O(1)量级的查询效率。通过对布谷哈希表的改造,利用现代处理器的向量运算和并行处理能力,提高了探测算法的执行效率。
本发明实施例还提供了一种复合索引装置,如图8A所示,包括: 
标签计算单元801,用于获取待探测键值,对待探测键值进行哈希计算,得到合并哈希代码;将上述合并哈希代码右移设定位得到上述待探测键值的标签;
向量计算单元802,用于将上述待探测键值的标签以单指令多数据流的位宽为基准进行复制和向量化处理得到待探测键值的标签向量;
比较单元803,用于通过单指令多数据流的比较指令按组比较索引键向量和上述待探测键值的标签向量;
探测单元804,用于根据上述比较单元的比较结果确定是否探测成功,若探测成功则返回上述待探测键值的索引地址内的元组对象。
本发明实施例,基于SIMD的并行探测方案,每次可比较多个数据项,降低循环遍历带来的性能开销,并且避免多次计算hash函数;待探测键值的标签属于部分键值形式的布谷哈希,可以降低哈希表的空间开销。因此,可以提高复合索引的效率。
本发明实施例还提供了以上比较单元和探测单元的可选实现方案,需要说明的是按组比较的方式还可以有其他方式并不仅限于本发明实施例提供了一下方案,以下举例不应理解为对本发明实施例的唯一性限定,如图8B所示,具体如下:比较单元803包括:桶计算单元801B和比较计算单元802B;
桶计算单元801B,用于使用第一哈希函数计算上述待探测键值所属的第一桶,使用第二哈希函数计算上述待探测键值所属的第二桶;将第一桶和第二桶中的上述待探测键值的标签的序列以上述单指令多数据流的位宽为单位进行分组存入目标寄存器中;
比较计算单元802B,每次从上述第一桶中取出上述待探测键值内的设定个数键值与上述探测键值的标签向量进行比较,并记录比较结果得到第一位掩码;从上述第一桶中,按与上述待探测键值的标签相同的顺序取出上述设定个数的指针,与上述第一位掩码执行逻辑与操作;每次从上述第二桶中取出上述待探测键值内的上述设定个数键值与上述探测键值的标签向量进行比较,并记录比较结果得到第二位掩码;从上述第二桶中,按与上述待探测键值的标签相同的顺序取出上述设定个数的指针,与上述第二位掩码执行逻辑与操作;将两次逻辑与操作得到的值进行逻辑或操作,直到第一桶内和第二 桶内的所有待探测键值比较完毕;
上述探测单元804,具体用于依据上述比较计算单元802B计算的逻辑或操作的结果确定探测是否成功,若探测成功则返回上述操作结果的指针所指向的映像表中的键组对象的引用地址内的元组对象。
进一步地,由于本发明实施例采用的待探测键值的标签是缺省的键值信息,因此损失了一部分的键值信息,存在误判的可能性,因此可以继续对已经探测成功的指针指向的数据进一步进行逐个匹配来验证,避免误判,具体方案如下:上述探测单元804,还用于在返回上述操作结果的指针所指向的映像表中的键组对象的引用地址内的元组对象之前,对上述操作结果的指针所指向的映像表中的键组对象的成员逐个匹配;上述返回上述操作结果的指针所指向的映像表中的键组对象的引用地址内的元组对象,包括:若匹配成功,则返回上述键组对象的引用地址内的元组对象,否则返回探测失败。
本发明实施例还提供了实体表的实现方案如下:可选地,上述元组对象存储在实体表中,实体表以块的方式组织存储在磁盘内,每个块存储预定数量的元组对象。
本发明实施例还提供了映像表的构造方案,在本发明实施例中映像表对应的是Compound Keys Image Table(复合键像表),具体如下:上述映像表为上述实体表的索引列的投影,以顺序存储的方式分布在连续的内存页上;在上述映像表中设置有地址列,用来存储元组对象所在磁盘物理地址。
进一步地,本发明实施例还提供了映像表中出现重复项目时的处理方案,具体如下:如图9所示,上述装置,还包括:
冗余处理单元901,用于检测上述映像表是否存在重复,若存在,则合并对应的元组对象,将被合并的各元组对象对应的地址以地址链的形式存储,在上述索引列的映射表存储上述地址链的首地址。
进一步地,本发明实施例还提供了构造Partial-Key(部分键)布谷哈希表的具体方案,如下:如图10所示,上述装置,还包括:
哈希表构造单元1001,用于在上述标签计算单元801获取待探测键值之前,构造部分键布谷哈希表,上述部分键布谷哈希表包含n个桶,上述n由上述映像表的大小和最大填充度确定,每个桶包含2m个槽;其中,前m个 槽存储上述复合索引键的待探测键值的标签,后m个槽存储复合索引在印象表中的偏移地址的指针;m的大小满足使得单个桶中的所有槽中的待探测键值的标签总位长为上述单指令多数据流的位宽的整数倍。
进一步地,本发明实施例还提供了计算索引项和计算插入位置的具体方案,如下:如图11所示,上述装置,还包括:
插入计算单元1101,用于接收待插入的数据,并获取待插入数据的键值的标签;上述待插入数据的键值的标签由上述待插入数据的键值经哈希计算得到哈希代码后右移上述设定位得到;
选择一个哈希函数计算上述待插入数据的键值的标签的第一位置对应的桶i,选择另一哈希函数计算上述待插入数据的键值的标签的第二位置对应的桶j;其中j为上述i与上述待插入数据的键值的标签的异或结果;
插入执行单元1102,用于若上述桶i和/或上述桶j空闲,则将上述待插入的数据插入任意一个空闲的桶中;若上述桶i和上述桶j均满,则按照预定算法踢出上述待插入的数据将占据的条目,并将被踢出的条目作为待插入数据,计算踢出的条目所属的桶,直到被踢出的条目被插入桶中。
进一步地,由于插入的过程可能出现无限循环,本发明实施例提供了如下解决方案:如图12所示,上述装置,还包括:
插入控制单元1201,用于若上述插入执行单元踢出条目的次数大于预定阈值则更换用于计算待插入数据的键值的标签对应的桶的哈希函数,或者增大哈希表的桶数组。
本发明实施例还提供了另一种复合索引装置,如图13所示,包括:接收器1301、发射器1302、处理器1303,以及存储器1304;
其中,处理器1303,用于获取待探测键值,对待探测键值进行哈希计算,得到合并哈希代码;将上述合并哈希代码右移设定位得到上述待探测键值的标签;
将上述待探测键值的标签以单指令多数据流的位宽为基准进行复制和向量化处理得到待探测键值的标签向量;
通过单指令多数据流的比较指令按组比较索引键向量和上述待探测键值的标签向量;
根据比较的结果确定是否探测成功,若探测成功则返回上述待探测键值的索引地址内的元组对象。
本发明实施例,基于SIMD(Single Instruction Multiple Data,单指令多数据流)的并行探测方案,每次可比较多个数据项,降低循环遍历带来的性能开销,并且避免多次计算hash函数;待探测键值的标签属于部分键值形式的布谷哈希,可以降低哈希表的空间开销。因此,可以提高复合索引的效率。
本发明实施例还提供了以上按组比较以及返回元组对象的可选实现方案,需要说明的是按组比较的方式还可以有其他方式并不仅限于本发明实施例提供了一下方案,以下举例不应理解为对本发明实施例的唯一性限定,具体如下:
上述处理器1303,具体用于使用第一哈希函数计算上述待探测键值所属的第一桶,使用第二哈希函数计算上述待探测键值所属的第二桶;将第一桶和第二桶中的上述待探测键值的标签的序列以上述单指令多数据流的位宽为单位进行分组存入目标寄存器中;
每次从上述第一桶中取出上述待探测键值内的设定个数键值与上述探测键值的标签向量进行比较,并记录比较结果得到第一位掩码;从上述第一桶中,按与上述待探测键值的标签相同的顺序取出上述设定个数的指针,与上述第一位掩码执行逻辑与操作;每次从上述第二桶中取出上述待探测键值内的上述设定个数键值与上述探测键值的标签向量进行比较,并记录比较结果得到第二位掩码;从上述第二桶中,按与上述待探测键值的标签相同的顺序取出上述设定个数的指针,与上述第二位掩码执行逻辑与操作;将两次逻辑与操作得到的值进行逻辑或操作,直到第一桶内和第二桶内的所有待探测键值比较完毕;
依据上述逻辑或操作的结果确定探测是否成功,若探测成功则返回上述操作结果的指针所指向的映像表中的键组对象的引用地址内的元组对象。
进一步地,由于本发明实施例采用的待探测键值的标签是缺省的键值信息,因此损失了一部分的键值信息,存在误判的可能性,因此可以继续对已经探测成功的指针指向的数据进一步进行逐个匹配来验证,避免误判,具体方案如下:处理器1303,还用于在返回上述操作结果的指针所指向的映像表 中的键组对象的引用地址内的元组对象之前,对上述操作结果的指针所指向的映像表中的键组对象的成员逐个匹配;
上述返回上述操作结果的指针所指向的映像表中的键组对象的引用地址内的元组对象,包括:若匹配成功,则返回上述键组对象的引用地址内的元组对象,否则返回探测失败。
本发明实施例还提供了实体表的实现方案如下:上述元组对象存储在实体表中,实体表以块的方式组织存储在磁盘内,每个块存储预定数量的元组对象。
本发明实施例还提供了映像表的构造方案,在本发明实施例中映像表对应的是Compound Keys Image Table(复合键像表),具体如下:上述映像表为上述实体表的索引列的投影,以顺序存储的方式分布在连续的内存页上;在上述映像表中设置有地址列,用来存储元组对象所在磁盘物理地址。
进一步地,本发明实施例还提供了映像表中出现重复项目时的处理方案,具体如下:处理器1303,还用于检测上述映像表是否存在重复,若存在,则合并对应的元组对象,将被合并的各元组对象对应的地址以地址链的形式存储,在上述索引列的映射表存储上述地址链的首地址。
本发明实施例还提供了构造Partial-Key(部分键)布谷哈希表的具体方案,如下:处理器1303,还用于在获取待探测键值之前,构造部分键布谷哈希表,上述部分键布谷哈希表包含n个桶,上述n由上述映像表的大小和最大填充度确定,每个桶包含2m个槽;其中,前m个槽存储上述复合索引键的待探测键值的标签,后m个槽存储复合索引在印象表中的偏移地址的指针;m的大小满足使得单个桶中的所有槽中的待探测键值的标签总位长为上述单指令多数据流的位宽的整数倍。
本发明实施例还提供了计算索引项和计算插入位置的具体方案,如下:处理器1303,还用于接收待插入的数据,并获取待插入数据的键值的标签;上述待插入数据的键值的标签由上述待插入数据的键值经哈希计算得到哈希代码后右移上述设定位得到;
选择一个哈希函数计算上述待插入数据的键值的标签的第一位置对应的桶i,选择另一哈希函数计算上述待插入数据的键值的标签的第二位置对应的 桶j;其中j为上述i与上述待插入数据的键值的标签的异或结果;
若上述桶i和/或上述桶j空闲,则将上述待插入的数据插入任意一个空闲的桶中;若上述桶i和上述桶j均满,则按照预定算法踢出上述待插入的数据将占据的条目,并将被踢出的条目作为待插入数据,计算踢出的条目所属的桶,直到被踢出的条目被插入桶中。
由于插入的过程可能出现无限循环,本发明实施例提供了如下解决方案:上述处理器1303,还用于若踢出条目的次数大于预定阈值则更换用于计算待插入数据的键值的标签对应的桶的哈希函数,或者增大哈希表的桶数组。
值得注意的是,上述装置只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
另外,本领域普通技术人员可以理解实现上述各方法实施例中的全部或部分步骤是可以通过程序来指令相关的硬件完成,相应的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明实施例揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (18)

1.一种复合索引方法,其特征在于,包括:
获取待探测键值,对待探测键值进行哈希计算,得到合并哈希代码;将所述合并哈希代码右移设定位得到所述待探测键值的标签;
将所述待探测键值的标签以单指令多数据流的位宽为基准进行复制和向量化处理得到待探测键值的标签向量;
通过单指令多数据流的比较指令按组比较索引键向量和所述待探测键值的标签向量;
根据比较的结果确定是否探测成功,若探测成功则返回所述待探测键值的索引地址内的元组对象。
2.根据权利要求1所述方法,其特征在于,所述通过单指令多数据流的比较指令按组比较索引键向量和所述待探测键值的标签向量,包括:
使用第一哈希函数计算所述待探测键值所属的第一桶,使用第二哈希函数计算所述待探测键值所属的第二桶;将第一桶和第二桶中的所述待探测键值的标签的序列以所述单指令多数据流的位宽为单位进行分组存入目标寄存器中;
每次从所述第一桶中取出所述待探测键值内的设定个数键值与所述探测键值的标签向量进行比较,并记录比较结果得到第一位掩码;从所述第一桶中,按与所述待探测键值的标签相同的顺序取出所述设定个数的指针,与所述第一位掩码执行逻辑与操作;每次从所述第二桶中取出所述待探测键值内的所述设定个数键值与所述探测键值的标签向量进行比较,并记录比较结果得到第二位掩码;从所述第二桶中,按与所述待探测键值的标签相同的顺序取出所述设定个数的指针,与所述第二位掩码执行逻辑与操作;将两次逻辑与操作得到的值进行逻辑或操作,直到第一桶内和第二桶内的所有待探测键值比较完毕;
所述根据比较的结果确定是否探测成功,若探测成功则返回所述待探测键值的索引地址内的元组对象,包括:
依据所述逻辑或操作的结果确定探测是否成功,若探测成功则返回所述操作结果的指针所指向的映像表中的键组对象的引用地址内的元组对象。
3.根据权利要求2所述方法,其特征在于,在返回所述操作结果的指针所指向的映像表中的键组对象的引用地址内的元组对象之前,还包括:
对所述操作结果的指针所指向的映像表中的键组对象的成员逐个匹配;
所述返回所述操作结果的指针所指向的映像表中的键组对象的引用地址内的元组对象,包括:若匹配成功,则返回所述键组对象的引用地址内的元组对象,否则返回探测失败。
4.根据权利要求2所述方法,其特征在于,所述元组对象存储在实体表中,实体表以块的方式组织存储在磁盘内,每个块存储预定数量的元组对象。
5.根据权利要求4所述方法,其特征在于,所述映像表为所述实体表的索引列的投影,以顺序存储的方式分布在连续的内存页上;在所述映像表中设置有地址列,用来存储元组对象所在磁盘物理地址。
6.根据权利要求5所述方法,其特征在于,还包括:
检测所述映像表是否存在重复,若存在,则合并对应的元组对象,将被合并的各元组对象对应的地址以地址链的形式存储,在所述索引列的映射表存储所述地址链的首地址。
7.根据权利要求2所述方法,其特征在于,在获取待探测键值之前,还包括:
构造部分键布谷哈希表,所述部分键布谷哈希表包含n个桶,所述n由所述映像表的大小和最大填充度确定,每个桶包含2m个槽;其中,前m个槽存储所述复合索引键的待探测键值的标签,后m个槽存储复合索引在印象表中的偏移地址的指针;m的大小满足使得单个桶中的所有槽中的待探测键值的标签总位长为所述单指令多数据流的位宽的整数倍。
8.根据权利要求2至7任意一项所述方法,其特征在于,还包括:
接收待插入的数据,并获取待插入数据的键值的标签;所述待插入数据的键值的标签由所述待插入数据的键值经哈希计算得到哈希代码后右移所述设定位得到;
选择一个哈希函数计算所述待插入数据的键值的标签的第一位置对应的桶i,选择另一哈希函数计算所述待插入数据的键值的标签的第二位置对应的桶j;其中j为所述i与所述待插入数据的键值的标签的异或结果;
若所述桶i和/或所述桶j空闲,则将所述待插入的数据插入任意一个空闲的桶中;若所述桶i和所述桶j均满,则按照预定算法踢出所述待插入的数据将占据的条目,并将被踢出的条目作为待插入数据,计算踢出的条目所属的桶,直到被踢出的条目被插入桶中。
9.根据权利要求8所述方法,其特征在于,还包括:
若踢出条目的次数大于预定阈值则更换用于计算待插入数据的键值的标签对应的桶的哈希函数,或者增大哈希表的桶数组。
10.一种复合索引装置,其特征在于,包括:
标签计算单元,用于获取待探测键值,对待探测键值进行哈希计算,得到合并哈希代码;将所述合并哈希代码右移设定位得到所述待探测键值的标签;
向量计算单元,用于将所述待探测键值的标签以单指令多数据流的位宽为基准进行复制和向量化处理得到待探测键值的标签向量;
比较单元,用于通过单指令多数据流的比较指令按组比较索引键向量和所述待探测键值的标签向量;
探测单元,用于根据所述比较单元的比较结果确定是否探测成功,若探测成功则返回所述待探测键值的索引地址内的元组对象。
11.根据权利要求10所述装置,其特征在于,所述比较单元包括:
桶计算单元,用于使用第一哈希函数计算所述待探测键值所属的第一桶,使用第二哈希函数计算所述待探测键值所属的第二桶;将第一桶和第二桶中的所述待探测键值的标签的序列以所述单指令多数据流的位宽为单位进行分组存入目标寄存器中;
比较计算单元,每次从所述第一桶中取出所述待探测键值内的设定个数键值与所述探测键值的标签向量进行比较,并记录比较结果得到第一位掩码;从所述第一桶中,按与所述待探测键值的标签相同的顺序取出所述设定个数的指针,与所述第一位掩码执行逻辑与操作;每次从所述第二桶中取出所述待探测键值内的所述设定个数键值与所述探测键值的标签向量进行比较,并记录比较结果得到第二位掩码;从所述第二桶中,按与所述待探测键值的标签相同的顺序取出所述设定个数的指针,与所述第二位掩码执行逻辑与操作;将两次逻辑与操作得到的值进行逻辑或操作,直到第一桶内和第二桶内的所有待探测键值比较完毕;
所述探测单元,具体用于依据所述比较计算单元计算的逻辑或操作的结果确定探测是否成功,若探测成功则返回所述操作结果的指针所指向的映像表中的键组对象的引用地址内的元组对象。
12.根据权利要求11所述装置,其特征在于,
所述探测单元,还用于在返回所述操作结果的指针所指向的映像表中的键组对象的引用地址内的元组对象之前,对所述操作结果的指针所指向的映像表中的键组对象的成员逐个匹配;所述返回所述操作结果的指针所指向的映像表中的键组对象的引用地址内的元组对象,包括:若匹配成功,则返回所述键组对象的引用地址内的元组对象,否则返回探测失败。
13.根据权利要求11所述装置,其特征在于,
所述元组对象存储在实体表中,实体表以块的方式组织存储在磁盘内,每个块存储预定数量的元组对象。
14.根据权利要求13所述装置,其特征在于,
所述映像表为所述实体表的索引列的投影,以顺序存储的方式分布在连续的内存页上;在所述映像表中设置有地址列,用来存储元组对象所在磁盘物理地址。
15.根据权利要求14所述装置,其特征在于,还包括:
冗余处理单元,用于检测所述映像表是否存在重复,若存在,则合并对应的元组对象,将被合并的各元组对象对应的地址以地址链的形式存储,在所述索引列的映射表存储所述地址链的首地址。
16.根据权利要求11所述装置,其特征在于,还包括:
哈希表构造单元,用于在所述标签计算单元获取待探测键值之前,构造部分键布谷哈希表,所述部分键布谷哈希表包含n个桶,所述n由所述映像表的大小和最大填充度确定,每个桶包含2m个槽;其中,前m个槽存储所述复合索引键的待探测键值的标签,后m个槽存储复合索引在印象表中的偏移地址的指针;m的大小满足使得单个桶中的所有槽中的待探测键值的标签总位长为所述单指令多数据流的位宽的整数倍。
17.根据权利要求11至16任意一项所述装置,其特征在于,还包括:
插入计算单元,用于接收待插入的数据,并获取待插入数据的键值的标签;所述待插入数据的键值的标签由所述待插入数据的键值经哈希计算得到哈希代码后右移所述设定位得到;
选择一个哈希函数计算所述待插入数据的键值的标签的第一位置对应的桶i,选择另一哈希函数计算所述待插入数据的键值的标签的第二位置对应的桶j;其中j为所述i与所述待插入数据的键值的标签的异或结果;
插入执行单元,用于若所述桶i和/或所述桶j空闲,则将所述待插入的数据插入任意一个空闲的桶中;若所述桶i和所述桶j均满,则按照预定算法踢出所述待插入的数据将占据的条目,并将被踢出的条目作为待插入数据,计算踢出的条目所属的桶,直到被踢出的条目被插入桶中。
18.根据权利要求17所述装置,其特征在于,还包括:
插入控制单元,用于若所述插入执行单元踢出条目的次数大于预定阈值则更换用于计算待插入数据的键值的标签对应的桶的哈希函数,或者增大哈希表的桶数组。
CN201410504325.3A 2014-09-26 2014-09-26 一种复合索引方法及装置 Active CN104536958B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410504325.3A CN104536958B (zh) 2014-09-26 2014-09-26 一种复合索引方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410504325.3A CN104536958B (zh) 2014-09-26 2014-09-26 一种复合索引方法及装置

Publications (2)

Publication Number Publication Date
CN104536958A true CN104536958A (zh) 2015-04-22
CN104536958B CN104536958B (zh) 2018-03-16

Family

ID=52852486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410504325.3A Active CN104536958B (zh) 2014-09-26 2014-09-26 一种复合索引方法及装置

Country Status (1)

Country Link
CN (1) CN104536958B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017032229A1 (en) * 2015-08-25 2017-03-02 Huawei Technologies Co., Ltd. Systems and methods for searching heterogeneous indexes of metadata and tags in file systems
CN107066498A (zh) * 2016-12-30 2017-08-18 成都华为技术有限公司 键值kv存储方法和装置
CN107391666A (zh) * 2017-07-20 2017-11-24 上海达梦数据库有限公司 一种复合索引键值的生成方法及装置
CN108369572A (zh) * 2015-12-18 2018-08-03 英特尔公司 用于基于向量的位操纵的指令和逻辑
CN109271390A (zh) * 2018-09-30 2019-01-25 天津大学 一种基于神经网络的索引数据结构及其数据检索方法
CN109800336A (zh) * 2019-01-30 2019-05-24 百度在线网络技术(北京)有限公司 基于键值对存储系统的表格实现方法、装置、设备和介质
CN109992986A (zh) * 2017-12-29 2019-07-09 中国移动通信集团上海有限公司 一种敏感数据的脱敏处理方法及装置
CN110111203A (zh) * 2019-05-05 2019-08-09 北京阿尔山金融科技有限公司 业务数据的批量操作方法、装置及电子设备
CN111177476A (zh) * 2019-12-05 2020-05-19 北京百度网讯科技有限公司 数据查询方法、装置、电子设备及可读存储介质
CN111241108A (zh) * 2020-01-16 2020-06-05 北京百度网讯科技有限公司 基于键值对kv系统的索引方法、装置、电子设备和介质
WO2020228287A1 (zh) * 2019-05-13 2020-11-19 平安科技(深圳)有限公司 IoT-MQ 的消息存储方法、装置、计算机设备和存储介质
CN108604182B (zh) * 2015-11-20 2021-04-09 华为技术有限公司 产生在分布式处理系统上执行的代码的装置
CN113779320A (zh) * 2021-08-18 2021-12-10 北京计算机技术及应用研究所 一种表项存储地址冲突的解决方法
CN115827698A (zh) * 2022-12-20 2023-03-21 深圳三地一芯电子有限责任公司 基于ahb的数据查询方法、装置及存储主控芯片
CN117891414A (zh) * 2024-03-14 2024-04-16 支付宝(杭州)信息技术有限公司 一种基于完美哈希的数据存储方法及相关设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101692651A (zh) * 2009-09-27 2010-04-07 中兴通讯股份有限公司 一种哈希查找表的方法和装置
CN103262058A (zh) * 2010-12-21 2013-08-21 英特尔公司 利用simd进行冲突检测的机制
CN103294831A (zh) * 2013-06-27 2013-09-11 中国人民大学 列存储数据库中基于多维数组的分组聚集计算方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101692651A (zh) * 2009-09-27 2010-04-07 中兴通讯股份有限公司 一种哈希查找表的方法和装置
CN103262058A (zh) * 2010-12-21 2013-08-21 英特尔公司 利用simd进行冲突检测的机制
CN103294831A (zh) * 2013-06-27 2013-09-11 中国人民大学 列存储数据库中基于多维数组的分组聚集计算方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017032229A1 (en) * 2015-08-25 2017-03-02 Huawei Technologies Co., Ltd. Systems and methods for searching heterogeneous indexes of metadata and tags in file systems
CN108604182B (zh) * 2015-11-20 2021-04-09 华为技术有限公司 产生在分布式处理系统上执行的代码的装置
CN108369572A (zh) * 2015-12-18 2018-08-03 英特尔公司 用于基于向量的位操纵的指令和逻辑
CN107066498B (zh) * 2016-12-30 2020-04-14 成都华为技术有限公司 键值kv存储方法和装置
CN107066498A (zh) * 2016-12-30 2017-08-18 成都华为技术有限公司 键值kv存储方法和装置
CN107391666A (zh) * 2017-07-20 2017-11-24 上海达梦数据库有限公司 一种复合索引键值的生成方法及装置
CN107391666B (zh) * 2017-07-20 2020-09-29 上海达梦数据库有限公司 一种复合索引键值的生成方法及装置
CN109992986A (zh) * 2017-12-29 2019-07-09 中国移动通信集团上海有限公司 一种敏感数据的脱敏处理方法及装置
CN109271390A (zh) * 2018-09-30 2019-01-25 天津大学 一种基于神经网络的索引数据结构及其数据检索方法
CN109800336A (zh) * 2019-01-30 2019-05-24 百度在线网络技术(北京)有限公司 基于键值对存储系统的表格实现方法、装置、设备和介质
CN110111203A (zh) * 2019-05-05 2019-08-09 北京阿尔山金融科技有限公司 业务数据的批量操作方法、装置及电子设备
WO2020228287A1 (zh) * 2019-05-13 2020-11-19 平安科技(深圳)有限公司 IoT-MQ 的消息存储方法、装置、计算机设备和存储介质
CN111177476A (zh) * 2019-12-05 2020-05-19 北京百度网讯科技有限公司 数据查询方法、装置、电子设备及可读存储介质
CN111177476B (zh) * 2019-12-05 2023-08-18 北京百度网讯科技有限公司 数据查询方法、装置、电子设备及可读存储介质
CN111241108A (zh) * 2020-01-16 2020-06-05 北京百度网讯科技有限公司 基于键值对kv系统的索引方法、装置、电子设备和介质
CN111241108B (zh) * 2020-01-16 2023-12-26 北京百度网讯科技有限公司 基于键值对kv系统的索引方法、装置、电子设备和介质
CN113779320A (zh) * 2021-08-18 2021-12-10 北京计算机技术及应用研究所 一种表项存储地址冲突的解决方法
CN113779320B (zh) * 2021-08-18 2024-02-27 北京计算机技术及应用研究所 一种表项存储地址冲突的解决方法
CN115827698A (zh) * 2022-12-20 2023-03-21 深圳三地一芯电子有限责任公司 基于ahb的数据查询方法、装置及存储主控芯片
CN117891414A (zh) * 2024-03-14 2024-04-16 支付宝(杭州)信息技术有限公司 一种基于完美哈希的数据存储方法及相关设备

Also Published As

Publication number Publication date
CN104536958B (zh) 2018-03-16

Similar Documents

Publication Publication Date Title
CN104536958A (zh) 一种复合索引方法,及装置
US20200394168A1 (en) Enumeration of trees from finite number of nodes
US20230267153A1 (en) Integrated index blocks and searching in blockchain systems
Peng et al. Paris: The next destination for fast data series indexing and query answering
US20210081410A1 (en) Accelerated building and probing of hash tables using symmetric vector processing
US20140188885A1 (en) Utilization and Power Efficient Hashing
US20150039627A1 (en) Probing a hash table using vectorized instructions
Peng et al. Paris+: Data series indexing on multi-core architectures
CN111552692B (zh) 一种加减法布谷鸟过滤器
US11580108B2 (en) Cache conscious techniques for generation of quasi-dense grouping codes of compressed columnar data in relational database systems
US11868348B2 (en) Hardware friendly key value table design to support relational hash join
CN113961514A (zh) 数据查询方法及装置
CN104657285A (zh) 一种数据缓存系统和方法
CN108363558A (zh) 面向大数据处理的机器数级数据比较方法
CN103207772A (zh) 一种优化实时任务wcet的指令预取内容选取方法
JP6318303B2 (ja) 並列マージソート
US20160335371A1 (en) System and method for querying graphs distributed over multiple machines
US11403273B1 (en) Optimizing hash table searching using bitmasks and linear probing
Kim et al. List intersection for web search: Algorithms, cost models, and optimizations
CN105389360A (zh) 一种基于avl树的数据写入方法及装置
Huang et al. Density-optimized intersection-free mapping and matrix multiplication for join-project operations
CN103902693A (zh) 一种读优化的内存数据库t树索引结构的方法
CN116521733A (zh) 一种数据查询方法及装置
CN100484084C (zh) 一种检索ip地址的方法
US7774347B2 (en) Vortex searching

Legal Events

Date Code Title Description
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200420

Address after: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee after: HUAWEI TECHNOLOGIES Co.,Ltd.

Address before: 301, A building, room 3, building 301, foreshore Road, No. 310052, Binjiang District, Zhejiang, Hangzhou

Patentee before: Huawei Technologies Co.,Ltd.