CN108182084A - 哈希混合加速系统及应用其进行哈希连接的方法 - Google Patents

哈希混合加速系统及应用其进行哈希连接的方法 Download PDF

Info

Publication number
CN108182084A
CN108182084A CN201711469611.0A CN201711469611A CN108182084A CN 108182084 A CN108182084 A CN 108182084A CN 201711469611 A CN201711469611 A CN 201711469611A CN 108182084 A CN108182084 A CN 108182084A
Authority
CN
China
Prior art keywords
hash
unit
histogram
tuple
destination address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711469611.0A
Other languages
English (en)
Other versions
CN108182084B (zh
Inventor
吴林阳
郭雪婷
陈云霁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201711469611.0A priority Critical patent/CN108182084B/zh
Publication of CN108182084A publication Critical patent/CN108182084A/zh
Application granted granted Critical
Publication of CN108182084B publication Critical patent/CN108182084B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3885Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units
    • G06F9/3887Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units controlled by a single instruction for multiple data lanes [SIMD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种哈希混合加速系统及应用其进行哈希连接的方法。其中系统包括:哈希分区加速器,配置为集成于内存上,用于加速处理哈希连接分区阶段,哈希分区加速器包括:哈希单元用于从内存中读取分块的关系表中多个元组,然后并行的处理多个元组的键,产生多个哈希索引;直方图单元,用于根据多个哈希索引,并行的更新存储在直方图单元中直方图数据的多个副本,并更新后的各副本整合为数据一致性的表单;混排单元,用于依据多个哈希索引,确定各元组存储于目标地址数组中的位置,将关系表中的元组复制到目标数组;主机处理器,用于处理哈希连接的构造阶段和探测阶段。本公开混合加速系统相比于现有的处理器,能够大幅提高哈希连接处理的能效。

Description

哈希混合加速系统及应用其进行哈希连接的方法
技术领域
本公开涉及计算机系统领域,进一步涉及一种哈希混合加速系统,以及应用哈希混合加速系统进行哈希连接的方法。
背景技术
在设计现代计算机系统时首先要考虑的因素是能耗。为了提高能效,如现场可编程门阵列(FPGA),图形处理器(GPU)和定制加速器一类的硬件加速器已被广泛应用于工业领域。随着靠近数据的处理技术的出现,将硬件加速器集成到动态随机存取存储器(DRAM)堆栈中以降低数据移动的成本成为一种新的系统设计思路。其基本思想是利用3D堆叠技术,将一些包含加速器的逻辑die和多个DRAM die垂直集成到一个芯片中。然而,由于3D堆叠DRAM的面积、功耗、散热和制造等方面的限制,能够集成到DRAM中的加速器的数量和类型是有限的。因此,给定一个加速的目标应用程序,确定其中哪些部分最适合在DRAM中加速是至关重要的。
发明内容
有鉴于此,本公开的目的在于提供一种哈希混合加速系统,以及应用哈希混合加速系统进行哈希连接的方法,以解决以上所述的至少部分技术问题。
本公开的一方面,提供一种哈希混合加速系统,包括:哈希分区加速器,配置为集成于内存上,用于加速处理哈希连接分区(partition)阶段,该哈希分区加速器包括:哈希单元(hash unit),用于从内存中读取分块的关系表中多个元组,然后并行的处理所述多个元组的键,产生多个哈希索引;直方图单元(histogram unit),用于根据所述多个哈希索引,并行的更新存储在该直方图单元中直方图数据的多个副本,并更新后的各副本整合为数据一致性的直方图数据表单;混排单元(Shuffle unit),用于依据所述多个哈希索引,确定各元组存储于目标地址数组中的位置,将关系表中的元组复制到目标数组,实现对关系表的划分;主机处理器,用于处理哈希连接的构造(build)阶段和探测(probe)阶段。
在进一步的实施方案中,还包括总线或者插入器,所述哈希分区加速器与主机处理器通过所述总线或者插入器与所述内存通信。
在进一步的实施方案中,所述内存为3D堆叠DRAM,该哈希分区加速器配置为集成到3D堆叠DRAM的逻辑层上。
在进一步的实施方案中,各3D堆叠DRAM中所述vault的数量为4-16,DRAM层为4-8层,所述哈希分区加速器中哈希单元、直方图单元和混排单元的并行度为16。
在进一步的实施方案中,所述哈希单元包括多个并行处理单元及与所述并行处理单元相同数量的多路选择器:所述并行处理单元用于处理各元组的键,产生各元组对应的哈希索引;所述多路选择器连接于各并行处理单元后端,用于选择哈希索引的输出为直方图单元或者混排单元。
在进一步的实施方案中,所述直方图单元包括多个并行的增量单元和规约单元:所述增量单元分别用于根据所述多个哈希索,并行的更新各直方图数据的副本;所述规约单元用于将各自第一本地存储器的更新后表单整合为数据一致性的表单。
在进一步的实施方案中,所述混排单元包括:多个并行的地址读取子单元:根据各所述哈希索引从目标地址数组中读取目标地址;冲突处理(DECONF)子单元,依据多个目标地址,对有冲突的目标地址,产生基于原始目标地址的偏移,同时也产生相同目标地址的计数值;分散(SCATTER)子单元,用于根据所述偏移和原始目标地址将元组移动到正确的位置,如无冲突则将元组移动至无偏移的目标地址;更新(UPDATE)子单元,根据所述计数值更新目标地址。
在进一步的实施方案中,所述冲突处理单元单元包括复用XNOR网络,输入为冲突的目标地址,输出分别为标地址的偏移和计数值。
在进一步的实施方案中,各所述地址读取子单元包括第二本地存储器,用于存储目标地址。
在进一步的实施方案中,所述主机处理器包括SIMD单元或者GPU,该SIMD单元或者GPU用于处理哈希连接的构造阶段和探测阶段;优选的,所述主机处理器包括SIMD单元。
根据本公开的另一方面,提供一种应用以上任一所述系统进行哈希连接的方法,包括:
进行分区操作,包括:应用哈希单元从内存中读取分块的关系表中多个元组,然后并行的处理所述多个元组的键,产生多个哈希索引;应用直方图单元根据所述多个哈希索引,并行的更新存储在该直方图单元中直方图数据的多个副本,并更新后的各副本整合为数据一致性的表单;应用混排单元依据所述多个哈希索引,确定各元组存储于目标地址数组中的位置,将关系表中的元组复制到目标数组,实现对关系表的划分;
进行构造操作,应用主机处理器使用较小的关系表构建内存中的哈希表;
进行探测操作,应用主机处理器在较大的关系表上对哈希表进行核对以完成连接。
本公开混合加速系统,以减少数据移动为出发点,用于加速数据库和大数据系统中的基本操作hash joins。内存端的加速器用于加速数据移动受限的执行阶段,而处理器端SIMD加速单元则用于加速数据移动开销较低成本的执行阶段。与英特尔的Haswell处理器和Xeon Phi相比,本公开的混合加速系统能效大幅提高能效。
附图说明
图1是本公开实施例的哈希分区加速器在3D堆叠DRAM所处位置示意图。
图2是本公开实施例的哈希分区加速器架构示意图。
图3是本公开实施例的DECONF单元中XNOR网络示意图。
图4是本公开实施例的3D堆叠DRAM配置方式示意图。
图5是本公开实施例的不同设计下的混排操作的能量-延迟积示意图。
图6是本公开实施例的混合加速系统示意图。
图7是本公开实施例Intel Haswell和Xeon Phi处理器在本公开实施例哈希分区加速器上操作的对比示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开作进一步的详细说明。在此说明所附附图简化过且做为例示用。附图中所示的组件数量、形状及尺寸可依据实际情况而进行修改,且组件的配置可能更为复杂。本公开中也可进行其他方面的实践或应用,且不偏离本发明所定义的精神及范畴的条件下,可进行各种变化以及调整。
根据本公开的基本构思,提出一种针对哈希分区加速器以及哈希连接(hashjoins,也叫散列连接)的混合加速系统,在CPU和DRAM之间进行合适的加速任务划分。该系统包含内存端定制的加速器(也即哈希分区加速器)和主机处理器(例如包含SIMD加速器),这个系统能提高哈希连接的整体能效。
上述哈希分区加速器和混合加速系统的构思基于本发明人的如下研究:对于哈希连接算法(例如optimized version ofradix join algorithm(PRO))进行了详细的性能分析和能耗分析,该算法针对现代多核系统进行了特殊的优化,上述算法主要包含分区(partition)、构造(build)和探测(probe)三个主要执行阶段,分区阶段可以进一步分为四个阶段:直方图化(Local histogram),前缀计算(prefix sum),输出地址(outputaddressing),以及数据混排(data shuffling)。本公开发明人分析发现,哈希连接本质上是内存受限的,通过进行能耗分析,在分区阶段,总能量的50%以上被用于数据移动和流水线阻塞,这可以通过内存端加速得到显著缓解。在构造和探测阶段,只有大约15%的能量被用于数据移动和流水线阻塞,这仍然可以通过现有的CPU端加速器(如SIMD单元)加速。并且分区阶段中,直方图化和数据混排阶段占总执行时间的99%以上。原因在于这两个阶段有高代价的非规则内存访问。因此,本公开中主要考虑对这个两个阶段采用靠近数据的处理技术。图1是本公开实施例的哈希分区加速器在内存(例如3D堆叠DRAM)所处位置示意图。结合图2所示,根据本公开实施例的一方面,提供一种哈希分区加速器,配置为集成于内存上,用于加速处理哈希连接分区(partition)阶段,该哈希分区加速器包括:
哈希单元(a)(hash unit),用于从内存中读取分块的关系表中多个元组,然后并行的处理所述多个元组的键,产生多个哈希索引;
直方图单元(b)(histogram unit),用于根据所述多个哈希索引,并行的更新存储在该直方图单元中直方图数据的多个副本,并更新后的各副本整合为数据一致性的表单;
混排单元(c)(Shuffle unit),用于依据所述多个哈希索引,确定各元组存储于目标地址数组中的位置,将关系表中的元组复制到目标数组,实现对关系表的划分。
在一些实施例中,所述内存为3D堆叠DRAM,该哈希分区加速器配置为集成到3D堆叠DRAM的逻辑层上。垂直3D die堆叠技术允许将多个存储器die直接叠加在处理器die上,从而提高内存带宽。这些die与短,快速,密集的通过硅片通道(TSV)集成在一起,提供了非常高的内部带宽。
对于哈希单元(a),其可以从内存中读取分块的关系表中多个元组,然后并行的处理所述多个元组的键,产生多个哈希索引。该阶段,哈希单元(a)以流式访问的方式从内存中读取关系表中的多个元组,然后并行的处理它们的键,以位移或者掩码的方式来产生哈希索引。
在一些实施例中,所述哈希单元(a)包括多个并行处理单元,分别用于处理各元组的键,产生各元组对应的哈希索引。通过并行处理,可以提高哈希连接的效率,而且该种并行处理可以通过内存端加速得以实现。
在一些实施例中,哈希单元还包括与所述并行处理单元相同数量的多路选择器,连接于各并行处理单元后端,用于选择哈希索引的输出为直方图单元或者混排单元。由于哈希单元(a)会被直方图单元(b)和混排单元(c)复用,所以加入了多路选择器11(MUX)用于决定哈希索引的输出目标。
对于直方图单元(b),其可以扫描分块的关系表,建立一个直方图数组。该单元主要实现功能在于根据哈希索引值并行更新直方图数据,可以包括两个阶段,即并行增量(INC)阶段和最后的归约(RED)阶段。在并行阶段,哈希单元(a)产生的哈希索引用于更新对应的各副本中当前的直方图数据值。在处理完从内存中读取的所有键后,最后的规约阶段进行所有LM的整合,以获得一个保持数据一致性的完整的表单。
在一些实施例中,所述直方图单元包括并行增量单元21,分别用于根据所述多个哈希索引,并行的更新各直方图数据的副本。进一步的,所述直方图单元(b)可以包括与多个第一本地存储器22,用于存储更新前和更新后的直方图数据的各个副本;优选的,所述副本数量为16,相对应的第一本地存储器22数量为16。
在一些实施例中,所述直方图单元还包括规约单元23,用于将各自第一本地存储器22的更新后表单整合为数据一致性的表单。该规约单元23设置于并行增量单元21和第一本地存储器22的后端,用于在处理完所有键后,进行所有第一本地存储存储器22中数据的整合,以获得一个保持数据一致性的完整的直方图数据表单。
对于混排单元(c)可以用于将分块的关系表中多个元组同时写入到各自在目标数组中的目标地址,然后更新目标数组中的目标地址。如果多个处理路径中具有相同目标地址的元组,需要处理目标地址冲突问题。
在一些实施中,该混排单元(c)可以包括多个并行的地址读取子单元31,其根据各所述哈希索引从目标地址数组中读取目标地址;冲突处理(DECONF)子单元32,依据多个目标地址,对有冲突的目标地址,产生基于原始目标地址的偏移,同时也产生相同目标地址的计数值;分散(SCATTER)子单元33,用于根据所述偏移和原始目标地址将元组移动到正确的位置,如无冲突则将元组移动至无偏移的目标地址;以及更新(UPDATE)子单元,根据所述计数值更新目标地址。
在一些实施例中,,所述冲突处理子单元32包括复用XNOR网络,该网络输入为冲突的目标地址,输出分别为标地址的偏移和计数值。如图3所示,是一个典型的二进制网络的示例,四个目标地址的数值d0,d1,d2和d3从dst数组中并行的读出。为了计算d0的总数量,例如count(d0),首先d0分别与d1,d2和d3进行同或操作,然后所有同或的数值进行求和。同样的,count(d1)通过加xnor(d1,d0),xnor(d1,d2)和xnor(d1,d3)计算得出。计算目标地址偏移也可以通过复用XNOR网络来实现。例如,offset(d1)是xnor(d1,d2)和xnor(d1,d3)的求和。
上述混排单元(c)的四个子单元对应于其实施的四个具体阶段,分别可以为如下阶段:
第一阶段,多个地址读取子单元31根据哈希索引从目标数组中并行的多个目标地址;各所述地址读取子单元31包括第二本地存储器,用于存储目标地址。
第二阶段,冲突处理子单元32检测多个路径之间有冲突的目标地址,产生基于原始目标地址的偏移,同时也产生相同目标地址的计数值来更新目标数组。第三阶段,分散子单元33将元组移动到正确的位置,该位置根据第二阶段的偏移和第一阶段的存储在目标数组的原始的目标地址计算出;
第四阶段,更新子单元34根据DECONF阶段产生的计数值更新目标地址。
在一些实施中,哈希分区加速器还包括编程接口,外部可通过该编程接口对直方图单元和混排单元进行操作。该编程接口可以是在现有技术已知的编程库上进行搭建。所使用的库函数包括内存管理库以及加速器控制库。其中的加速器控制库通过扩展,能够控制直方图单元和混排单元的操作。因此,本领域技术人员可以很容易地在程序中使用哈希分区加速器。本发明实施例的编程接口本质上是一个顺序编程模型,所以可以减轻异构系统的编程负担。
请继续看考图1和图2,本发明实施例还提供一种含哈希分区加速器和内存组合装置,包括:
内存,包括数据存储区和逻辑区;
哈希分区加速器,集成于所述内存的逻辑区上,用于加速处理哈希连接分区(partition)阶段。
对于该哈希分区加速器,可参照上述实施例中哈希分区加速器进行设计,在此不予赘述。在此主要介绍两者配置关系,以及为提高整体的处理效率以及降低整体功耗相应的设计方式。
在一些实施例中,内存可以为3D堆叠DRAM,该哈希分区加速器配置为集成到3D堆叠DRAM的逻辑层上。对于每个3D DRAM堆,都可集成多个该加速器,用于加速分区阶段。每个3D堆叠DRAM包含一个或者多个vault,并且每个vault都由逻辑层的vault控制器访问,可以将一个哈希分区加速器通过半导体工艺附加到vault controller上。将加速器集成在DRAM中的好处在于从各方面减少partition阶段的能耗(减少数据移动的能耗、流水线阻塞的能耗、计算的能耗),从而减少总体能耗。
如图2所示,每个哈希分区加速器主要包括部分:哈希单元(hash unit),直方图单元(histogram unit)和混排单元(shuffle unit),这些单元通过vault控制器访问DRAM层(vault控制器再通过TSV访问上层的DRAM层),并且与逻辑层的开关电路相连。所述逻辑层包括vault控制电路,所述哈希单元、直方图单元和混排单元均电性连接所述vault控制电路,通过该控制电路访问DRAM层。
在一些实施例中,所述直方图单元中的并行度可以为16。具体分析如下:
在哈希分区加速器的设计过程中,存在着诸如并行度和频率上的多种设计选择,3D堆叠DRAM也有不同的配置。图4列出了三种可能的3D堆叠DRAM配置,即高配置(HI),中配置(MD)和低配置(LO)。内部带宽范围在860GB/s到360GB/s之间。通过研究每个vault的并行度(1到512),操作频率(0.4GHz到2.0GHz)和DRAM配置组成的设计空间,以寻找在性能和功耗之间的平衡。
对于直方图单元的操作,以能量-延迟积(EDP)为标准,在所有的DRAM配置下,在并行度是32左右时,EDP达到了最小值。举例来说,针对HI配置,在1.2GHz下,最优化的EDP需要并行度64的配置。一般来说,相比HI配置,MD和LO DRAM配置具有更好的能效(每个vault),特别是在像64之类较大的并行度的情况下。图5为不同设计下的混排操作的能量-延迟积示意图。其显示每个vault的混排操作能量-延迟积(EDP)和面积。达到最佳EDP的并行度是在32到128之间。例如,在2GHz下,并行度为32的EDP是并行度为512的EDP的1.77倍。在所有的这些配置中,获得最佳EDP的配置为并行度=64,频率=1.2GHz和DRAM配置=LO。最优配置下,每个vault的面积为0.18mm2。
综合直方图操作和混排操作,当输入的大小是128M时,HPA的最优设计决策是并行度=16,频率=2.0GHz,DRAM配置=HI。此外,相应的面积只有1.78mm2,加速器的功耗(不含DRAM功耗)只有7.52w。
如图6所示,根据本发明实施例的另一方面,还提供一种哈希混合加速系统,包括:
哈希分区加速器,配置为集成于内存上,用于加速处理哈希连接分区(partition)阶段,该哈希分区加速器包括:
哈希单元(hash unit),用于从内存中读取分块的关系表中多个元组,然后并行的处理所述多个元组的键,产生多个哈希索引;
直方图单元(histogram unit),用于根据所述多个哈希索引,并行的更新存储在该直方图单元中直方图数据的多个副本,并更新后的各副本整合为数据一致性的直方图数据表单;
混排单元(Shuffle unit),用于依据所述多个哈希索引,确定各元组存储于目标地址数组中的位置,将关系表中的元组复制到目标数组,实现对关系表的划分;
主机处理器,用于处理哈希连接的构造(build)阶段和探测(probe)阶段。
主机处理器可以通过高速连接(用于传统的HMC系统中)或者插入器与3D DRAM堆进行通信。主机处理器可以通过引入加速器增强自身性能,从而提高大多数应用的性能。在混合加速系统中,主机处理器主要侧重于加速构造和探测阶段。
在进一步的实施方案中,哈希混合加速系统还包括总线或者插入器所述哈希分区加速器与主机处理器通过所述总线或者插入器与所述内存通信。
在进一步的实施方案中,所述内存为3D堆叠DRAM,该哈希分区加速器配置为集成到3D堆叠DRAM的逻辑层上。
对哈希分区加速器与3D堆叠DRAM之间的设置关系,以及哈希分区加速器的具体设置,可参照以上所述的实施例进行,在此不予赘述。此处主要介绍主机处理器端以及描述主机处理器与哈希分区加速器联系进行哈希联系操作的方法。整个系统配合能提高哈希连接的整体能效。
在一些实施例中,所述主机处理器包括SIMD单元、定制的加速器或GPU等,用于处理哈希连接的构造阶段和探测阶段;优选的,所述主机处理器包括SIMD单元。
本发明实施例还提供一种应用以上所述系统进行哈希连接的方法,包括:
进行分区操作,包括:应用哈希单元从内存中读取分块的关系表中多个元组,然后并行的处理所述多个元组的键,产生多个哈希索引;应用直方图单元根据所述多个哈希索引,并行的更新存储在该直方图单元中直方图数据的多个副本,并更新后的各副本整合为数据一致性的表单;应用混排单元依据所述多个哈希索引,确定各元组存储于目标地址数组中的位置,将关系表中的元组复制到目标数组,实现对关系表的划分;
进行构造操作,应用主机处理器使用较小的关系表构建内存中的哈希表;
进行探测操作,应用主机处理器在较大的关系表上对哈希表进行核对以完成连接。
如图7所示,通过比较HPA与基准平台的性能、能效和EDP。平均而言,与IntelHaswell处理器相比,哈希分区加速器的性能、功耗和EDP分别提升了30、90和2725倍。与Xeon Phi处理器相比,EDP提升甚至超过了6000倍。性能和能效的显著提高主要来源于定制加速器和由3D堆叠的DRAM提供的高带宽。
本公开实施例的混合加速系统不需要额外的芯片面积,因为哈希分区加速器可以很容易地放置到现有的3D堆叠DRAM的逻辑层中。在功耗方面,所提出的系统仅需要增加7.52W的功耗,就能相对于Haswell获得6.70和47.52倍的性能和能效提升。
以上所述的具体实施例,对本公开的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本公开的具体实施例而已,并不用于限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (11)

1.一种哈希混合加速系统,其特征在于包括:
哈希分区加速器,配置为集成于内存上,用于加速处理哈希连接分区(partition)阶段,该哈希分区加速器包括:
哈希单元(hash unit),用于从内存中读取分块的关系表中多个元组,然后并行的处理所述多个元组的键,产生多个哈希索引;
直方图单元(histogram unit),用于根据所述多个哈希索引,并行的更新存储在该直方图单元中直方图数据的多个副本,并更新后的各副本整合为数据一致性的直方图数据表单;
混排单元(Shuffle unit),用于依据所述多个哈希索引,确定各元组存储于目标地址数组中的位置,将关系表中的元组复制到目标数组,实现对关系表的划分;
主机处理器,用于处理哈希连接的构造(build)阶段和探测(probe)阶段。
2.根据权利要求1所述的系统,其特征在于,还包括总线或者插入器,所述哈希分区加速器与主机处理器通过所述总线或者插入器与所述内存通信。
3.根据权利要求1所述的系统,其特征在于,所述内存为3D堆叠DRAM,该哈希分区加速器配置为集成到3D堆叠DRAM的逻辑层上。
4.根据权利要求3所述的系统,其特征在于,各3D堆叠DRAM中所述vault的数量为4-16,DRAM层为4-8层,所述哈希分区加速器中哈希单元、直方图单元和混排单元的并行度为16。
5.根据权利要求1所述的系统,其特征在于,所述哈希单元包括多个并行处理单元及与所述并行处理单元相同数量的多路选择器:
所述并行处理单元用于处理各元组的键,产生各元组对应的哈希索引;
所述多路选择器连接于各并行处理单元后端,用于选择哈希索引的输出为直方图单元或者混排单元。
6.根据权利要求1所述的系统,其特征在于,所述直方图单元包括多个并行的增量单元和规约单元:
所述增量单元分别用于根据所述多个哈希索,并行的更新各直方图数据的副本;
所述规约单元用于将各自第一本地存储器的更新后表单整合为数据一致性的表单。
7.根据权利要求1所述的系统,其特征在于,所述混排单元包括:
多个并行的地址读取子单元:根据各所述哈希索引从目标地址数组中读取目标地址;
冲突处理(DECONF)子单元,依据多个目标地址,对有冲突的目标地址,产生基于原始目标地址的偏移,同时也产生相同目标地址的计数值;
分散(SCATTER)子单元,用于根据所述偏移和原始目标地址将元组移动到正确的位置,如无冲突则将元组移动至无偏移的目标地址;
更新(UPDATE)子单元,根据所述计数值更新目标地址。
8.根据权利要求7所述的系统,其特征在于,所述冲突处理单元单元包括复用XNOR网络,输入为冲突的目标地址,输出分别为标地址的偏移和计数值。
9.根据权利要求7所述的系统,其特征在于,各所述地址读取子单元包括第二本地存储器,用于存储目标地址。
10.根据权利要求1所述的系统,其特征在于,所述主机处理器包括SIMD单元或者GPU,该SIMD单元或者GPU用于处理哈希连接的构造阶段和探测阶段;优选的,所述主机处理器包括SIMD单元。
11.一种应用权利要求1-10任一所述系统进行哈希连接的方法,其特征在于包括:
进行分区操作,包括:
应用哈希单元从内存中读取分块的关系表中多个元组,然后并行的处理所述多个元组的键,产生多个哈希索引;
应用直方图单元根据所述多个哈希索引,并行的更新存储在该直方图单元中直方图数据的多个副本,并更新后的各副本整合为数据一致性的表单;
应用混排单元依据所述多个哈希索引,确定各元组存储于目标地址数组中的位置,将关系表中的元组复制到目标数组,实现对关系表的划分;
进行构造操作,应用主机处理器使用较小的关系表构建内存中的哈希表;
进行探测操作,应用主机处理器在较大的关系表上对哈希表进行核对以完成连接。
CN201711469611.0A 2017-12-28 2017-12-28 哈希混合加速系统及应用其进行哈希连接的方法 Active CN108182084B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711469611.0A CN108182084B (zh) 2017-12-28 2017-12-28 哈希混合加速系统及应用其进行哈希连接的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711469611.0A CN108182084B (zh) 2017-12-28 2017-12-28 哈希混合加速系统及应用其进行哈希连接的方法

Publications (2)

Publication Number Publication Date
CN108182084A true CN108182084A (zh) 2018-06-19
CN108182084B CN108182084B (zh) 2021-05-11

Family

ID=62548780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711469611.0A Active CN108182084B (zh) 2017-12-28 2017-12-28 哈希混合加速系统及应用其进行哈希连接的方法

Country Status (1)

Country Link
CN (1) CN108182084B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977116A (zh) * 2019-03-14 2019-07-05 山东超越数控电子股份有限公司 基于fpga-ddr的哈希连接算子加速方法及系统
CN113297209A (zh) * 2021-02-10 2021-08-24 阿里巴巴集团控股有限公司 数据库执行哈希连接的方法以及装置
CN113535719A (zh) * 2021-07-07 2021-10-22 锐掣(杭州)科技有限公司 数据过滤方法、数据过滤装置、存储介质及产品

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593202A (zh) * 2009-01-14 2009-12-02 中国人民解放军国防科学技术大学 基于共享Cache多核处理器的数据库哈希连接方法
CN101594309A (zh) * 2009-06-30 2009-12-02 华为技术有限公司 集群系统中内存资源的管理方法、设备及网络系统
CN101916302A (zh) * 2010-09-01 2010-12-15 中国地质大学(武汉) 基于哈希表的三维空间数据自适应缓存管理方法及系统
CN103150265A (zh) * 2013-02-04 2013-06-12 山东大学 面向嵌入式片上异构存储器的细粒度数据分配方法
CN104133661A (zh) * 2014-07-30 2014-11-05 西安电子科技大学 基于列存储的多核并行哈希分区优化方法
CN105183880A (zh) * 2015-09-22 2015-12-23 浪潮集团有限公司 一种哈希连接的方法及装置
CN105245271A (zh) * 2015-10-27 2016-01-13 航天恒星科技有限公司 卫星通信网络加速装置以及方法
US20160147450A1 (en) * 2014-11-20 2016-05-26 International Business Machines Corporation High-performance hash joins using memory with extensive internal parallelism
CN106416151A (zh) * 2014-05-30 2017-02-15 高通股份有限公司 用于分组处理的基于多表哈希查找
US20170109056A1 (en) * 2015-10-19 2017-04-20 Intel Corporation Data compression using accelerator with multiple search engines
CN107168936A (zh) * 2017-05-17 2017-09-15 上海兆芯集成电路有限公司 基于散列的加速压缩方法以及使用此方法的装置
CN107330047A (zh) * 2017-06-28 2017-11-07 华信塞姆(成都)科技有限公司 一种基于完美哈希算法的fpga训练及查询电路实现方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593202A (zh) * 2009-01-14 2009-12-02 中国人民解放军国防科学技术大学 基于共享Cache多核处理器的数据库哈希连接方法
CN101594309A (zh) * 2009-06-30 2009-12-02 华为技术有限公司 集群系统中内存资源的管理方法、设备及网络系统
CN101916302A (zh) * 2010-09-01 2010-12-15 中国地质大学(武汉) 基于哈希表的三维空间数据自适应缓存管理方法及系统
CN103150265A (zh) * 2013-02-04 2013-06-12 山东大学 面向嵌入式片上异构存储器的细粒度数据分配方法
CN106416151A (zh) * 2014-05-30 2017-02-15 高通股份有限公司 用于分组处理的基于多表哈希查找
CN104133661A (zh) * 2014-07-30 2014-11-05 西安电子科技大学 基于列存储的多核并行哈希分区优化方法
US20160147450A1 (en) * 2014-11-20 2016-05-26 International Business Machines Corporation High-performance hash joins using memory with extensive internal parallelism
CN105183880A (zh) * 2015-09-22 2015-12-23 浪潮集团有限公司 一种哈希连接的方法及装置
US20170109056A1 (en) * 2015-10-19 2017-04-20 Intel Corporation Data compression using accelerator with multiple search engines
CN105245271A (zh) * 2015-10-27 2016-01-13 航天恒星科技有限公司 卫星通信网络加速装置以及方法
CN107168936A (zh) * 2017-05-17 2017-09-15 上海兆芯集成电路有限公司 基于散列的加速压缩方法以及使用此方法的装置
CN107330047A (zh) * 2017-06-28 2017-11-07 华信塞姆(成都)科技有限公司 一种基于完美哈希算法的fpga训练及查询电路实现方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BERKIN AKIN,ETC: "Data reorganization in memory using 3D-stacked DRAM", 《2015 ACM/IEEE 42ND ANNUAL INTERNATIONAL SYMPOSIUM ON COMPUTER ARCHITECTURE (ISCA)》 *
CHANGKYU KIM,ETC: "Sort vs. Hash Revisited: Fast Join Implementation on Modern Multi-Core CPUs", 《 PROCEEDINGS OF THE VLDB ENDOWMENT》 *
SEBASTIAN HAAS,ETC: "Energy-Efficient Hash Join Implementations in Hardware-Accelerated MPSoCs", 《THE 43RD INTERNATIONAL CONFERENCE ON VERY LARGE DATA BASES》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977116A (zh) * 2019-03-14 2019-07-05 山东超越数控电子股份有限公司 基于fpga-ddr的哈希连接算子加速方法及系统
CN113297209A (zh) * 2021-02-10 2021-08-24 阿里巴巴集团控股有限公司 数据库执行哈希连接的方法以及装置
CN113297209B (zh) * 2021-02-10 2024-03-08 阿里巴巴集团控股有限公司 数据库执行哈希连接的方法以及装置
CN113535719A (zh) * 2021-07-07 2021-10-22 锐掣(杭州)科技有限公司 数据过滤方法、数据过滤装置、存储介质及产品

Also Published As

Publication number Publication date
CN108182084B (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
Bender et al. Cache-oblivious B-trees
CN108182084A (zh) 哈希混合加速系统及应用其进行哈希连接的方法
US7210112B2 (en) Element placement method and apparatus
CN108196662A (zh) 哈希分区加速器
Shan et al. A comparison of three programming models for adaptive applications on the Origin2000
Axtmann et al. Practical massively parallel sorting
Awad et al. Dynamic graphs on the GPU
CN107015868B (zh) 一种通用后缀树的分布式并行构建方法
Zhang et al. An efficient mapping approach to large-scale dnns on multi-fpga architectures
CN106487704A (zh) 包括接口电路、存储器模块以及切换电路的服务器设备
CN104572501B (zh) 一种基于访存踪迹局部性分析的多核环境下共享缓存优化方法
Jünger et al. Warpcore: A library for fast hash tables on gpus
CN1656461A (zh) 在模拟多端口存储器中编程访问等待时间
CN108170253A (zh) 含哈希分区加速器和内存的组合装置
CN110096225A (zh) 针对网络设备中的分组处理指令表的存储器的动态分配
CN111553834A (zh) 基于fpga的并发图数据预处理方法
Arge et al. Cache-oblivious data structures
CN104572579B (zh) 基于fpga解析型布局求解器的多选择区域动态划分方法
Cheng et al. Deploying hash tables on die-stacked high bandwidth memory
Giamblanco et al. A dynamic memory allocation library for high-level synthesis
Baskaya et al. Placement for large-scale floating-gate field-programable analog arrays
Ueda et al. A dynamically reconfigurable equi-joiner on FPGA
CN104778088A (zh) 一种基于减少进程间通信开销的并行i/o优化方法与系统
Ou et al. Parallel remapping algorithms for adaptive problems
CN103365797B (zh) 物理内存页分配方法和计算机系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant