CN107229692B

CN107229692B - 一种基于流水线的分布式多表连接方法及系统

Info

Publication number: CN107229692B
Application number: CN201710361245.0A
Authority: CN
Inventors: 王宏志; 孙旭冉; 赵志强
Original assignee: Da Da Data Industry Co Ltd
Current assignee: Da Da Data Industry Co Ltd
Priority date: 2017-05-19
Filing date: 2017-05-19
Publication date: 2018-05-01
Anticipated expiration: 2037-05-19
Also published as: CN107229692A

Abstract

本发明涉及一种基于流水线的分布式多表连接方法及系统，其中方法包括并行执行的以下步骤：映射处理单元从分布式文件系统读取待连接表，将所述待连接表进行映射处理后得到对应的数据块，并以每两个待连接表为一组输出；第二规约处理单元按序读取第二组至末尾组表的数据块，并对每组表的两个数据块进行哈希连接得到每组表的两表连接结果；第一规约处理单元读取第一组表的两个数据块进行哈希连接后作为初始的多表连接结果，并在等待第二规约机器群完成一组表的哈希连接后，将当前的多表连接结果与该组表的两表连接结果进行顺序连接，直至所有组表完成连接。本发明通过并行执行的流水线，既实现了查询操作时自适应分割，又能快速高效的完成。

Description

一种基于流水线的分布式多表连接方法及系统

技术领域

本发明涉及分布式数据计算技术，尤其涉及一种基于流水线的分布式多表连接方法及系统。

背景技术

大数据时代的到来，带动了数据量的迅猛增长，急需一种技术来存储和处理如此庞大的数据量，由此，谷歌的DFS(分布式文件系统)和分布式计算模型MapReduce(映射和规约)应运而生，如今分布式计算技术已成为海量数据存储分析的主流技术。对于海量数据分析，连接查询是一种重要的操作，并且在实际应用时，所需的数据可能不仅仅局限于某一个表，而是涉及到多个表，这给连接操作带来了一定的难度。

在执行连接查询之前，首先要对相应数据进行分割，通常的做法是对数据进行哈希分割或范围分割。现有技术中提出了一种自适应的分割方法。此方法使用了一种双阶段的分割算法对数据进行了基于属性的分割：第一阶段，依据连接属性对最顶层数据进行分割；第二阶段，依据数据规模和规约器(reduce)个数对底层数据进行进一步的分割。这样的分割算法保证了每一个分割树都包含单一的连接属性。当这种自适应的分割算法检测到一个包含着新的连接属性的输入查询时，它将以同样的双阶段方法生成一个新的分割树，该分割树以新的查询操作包含的连接属性为划分依据，并且初始状态为空。随着查询操作的进行，这种分割算法将随机地从旧的分割树中选取适当规模的数据进行重分割，并逐渐地将数据移动到新的分割树中，直至新的分割树中包含的数据满足新的查询操作。这种基于双阶段的自适应分割算法可以有效地对数据进行基于连接属性的分割，并且避免了出现包含新的连接属性的查询操作时，全部数据的重新分割，实现了自适应。

然而，这种自适应分割算法主要针对两表连接的情况，如将其应用于多表连接上，则需要首先执行前两个表的连接操作，再把连接的结果看作一个新的表，和下一个表进行连接，以此类推，直到完成所有表的连接。显然这会产生大量的中间结果，造成很大的I/O开销，是一种效率极低的方法，而在实际应用中，多表连接又是非常常见的操作。

发明内容

本发明要解决的技术问题是，针对现有的数据分割方法在应用于对多表进行连接时效率低的缺陷，提供一种基于流水线的分布式多表连接方法及系统。

为了解决上述技术问题，本发明提供了一种基于流水线的分布式多表连接方法，该方法包括并行执行的以下步骤：

A、映射处理单元从分布式文件系统读取待连接表，将所述待连接表进行映射处理后得到对应的数据块，并以每两个待连接表为一组，将第一组表的数据块输出至第一规约处理单元，将第二组至末尾组表的数据块按序输出至第二规约处理单元；

B、第二规约处理单元按序读取第二组至末尾组表的数据块，并对每组表的两个数据块进行哈希连接得到每组表的两表连接结果；

C、第一规约处理单元读取第一组表的两个数据块进行哈希连接后作为初始的多表连接结果，并在等待第二规约处理单元完成一组表的哈希连接后，将当前的多表连接结果与该组表的两表连接结果进行顺序连接以更新多表连接结果，直至所有组表完成连接后输出多表连接结果。

在根据本发明所述的基于流水线的分布式多表连接方法中，所述步骤A包括以下步骤：

在t₁时刻，映射处理单元读取待连接表T₁至T₄，对所述待连接表T₁至T₄进行映射处理后得到对应的数据块B₁至B₄，并将第一组表的数据块B₁和B₂输出至所述第一规约处理单元，将第二组表的数据块B₃和B₄输出至所述第二规约处理单元；

在t_i时刻，其中i＝2,3,…,j-1，j为待连接表的组数；映射处理单元读取待连接表T_2i+1和T_2i+2，对所述待连接表T_2i+1和T_2i+2进行映射处理后得到第i+1组表的数据块B_2i+1至B_2i+2，并输出至第二规约处理单元。

在根据本发明所述的基于流水线的分布式多表连接方法中，所述步骤B包括以下步骤：在t_i时刻，其中i＝2,3,…,j；第二规约处理单元读取第i组表的数据块B_2i-1至B_2i进行哈希连接后得到第i组表的两表连接结果H_i。

在根据本发明所述的基于流水线的分布式多表连接方法中，所述步骤C包括以下步骤：

在t₂时刻，第一规约处理单元读取第一组表的数据块B₁至B₂进行哈希连接后作为初始的多表连接结果S₁；

在t_i时刻，其中i＝3,4,…,j+1；第一规约处理单元在等待第二规约处理单元完成第i-1组表的哈希连接后，将当前的多表连接结果S_i-2与第i-1组表的两表连接结果H_i-1进行顺序连接得到更新的多表连接结果S_i-1。

在根据本发明所述的基于流水线的分布式多表连接方法中，所述步骤A中还包括：在判断待连接表的总数n为奇数时，在待连接表中增加一个空表，且待连接表的组数在判断待连接表的总数n为偶数时，待连接表的组数

在根据本发明所述的基于流水线的分布式多表连接方法中，所述步骤A的映射处理为自适应的双阶段分割。

在根据本发明所述的基于流水线的分布式多表连接方法中，所述自适应的双阶段分割包括：在第一阶段依据连接属性对顶层数据进行分割；在第二阶段依据数据规模和规约器的个数对底层数据进行分割。

本发明还提供了一种基于流水线的分布式多表连接系统，包括：

映射处理单元，用于从分布式文件系统读取待连接表，将所述待连接表进行映射处理后得到对应的数据块，并以每两个待连接表为一组，将第一组表的数据块输出至第一规约处理单元，将第二组至末尾组表的数据块按序输出至第二规约处理单元；

第二规约处理单元，用于按序读取所述第二组至末尾组表的数据块，并对每组表的两个数据块进行哈希连接得到每组表的两表连接结果；

第一规约处理单元，用于读取第一组表的两个数据块进行哈希连接后作为初始的多表连接结果，并在等待第二规约处理单元完成一组表的哈希连接后，将当前的多表连接结果与该组表的两表连接结果进行顺序连接以更新多表连接结果，直至所有组表完成连接后输出多表连接结果。

在根据本发明所述的基于流水线的分布式多表连接系统中，所述映射处理单元还在判断待连接表的总数n为奇数时，在待连接表中增加一个空表，则待连接表的组数在判断待连接表的总数n为偶数时，待连接表的组数

在根据本发明所述的基于流水线的分布式多表连接系统中，所述映射处理单元执行的映射处理为自适应的双阶段分割。

实施本发明的基于流水线的分布式多表连接方法及系统，具有以下有益效果：本发明通过并行执行的流水线实现多表连接，采用调度器对流水线中的多个任务进行有序、高效的调度，避免了两两连接中产生过多中间结果、I/O开销过大的情况，可以快速高效地实现多个表的连接。

附图说明

图1为根据本发明的基于流水线的分布式多表连接系统的结构图；

图2为根据本发明的基于流水线的分布式多表连接方法的任务流水线图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种基于流水线的分布式多表连接方法，通过并行执行两条流水线，既实现了查询操作时的自适应分割，又能快速高效的完成。

请参阅图1，为根据本发明的基于流水线的分布式多表连接系统的结构图。MapReduce(映射规约)是现有应用于大规模数据处理的一种系统架构，至少包括映射处理(Map)和规约处理(Reduce)。该基于流水线的分布式多表连接系统至少包括：映射处理单元MAP、第一规约处理单元R1和第二规约处理单元R2。其中映射处理单元MAP用于从分布式文件系统HDFS读取初始数据，并进行映射处理后，产生中间数据存入随机存储器(RAM)，随后通过合并(Combine)和分区(Partitioner)，输出中间结果至对应规约分区的对应缓冲区，如图1中的D1和D2。第一规约处理单元R1和第二规约处理单元R2分别从各自对应的分区读取数据并完成规约处理。本发明中的映射处理单元MAP、第一规约处理单元R1和第二规约处理单元R2均可以由各自的机器集群实现，分别称为映射机器群、第一规约机器群和第二规约机器群。

本发明第一方面，提供了一种基于流水线的分布式多表连接方法。主要包括并行执行的以下步骤：

A、映射处理单元MAP从分布式文件系统读取待连接表，将待连接表进行映射处理后得到对应的数据块，并以每两个待连接表为一组，将第一组表的数据块输出至第一规约处理单元R1，将第二组至末尾组表的数据块按序输出至第二规约处理单元R2。该步骤中映射处理为，所述步骤A的映射处理为自适应的双阶段分割。该自适应的双阶段分割包括：首先，在第一阶段依据连接属性对顶层数据进行分割；其次，在第二阶段依据数据规模和规约(Reduce)器的个数对底层数据进行进一步的分割。这样的分割算法保证了每一个分割树都包含单一的连接属性。当查询操作中出现新的连接属性时，以同样的双阶段方法生成一个包含新连接属性的分割树，随着查询操作的进行随机地从旧的分割树中选取适当规模的数据进行重分割，并逐渐地将数据移动到新的分割树中，直至新的分割树中包含的数据满足新的查询操作。

假设读取的待连接表为T₁、T₂、T₃、T₄……T_n，n为待连接表的总数，将待连接表以两个为一组划分为j组表。在本发明的一种优选实施方式中，在向分布式文件系统输入待连接表T₁至T_n时，便检测如n是否为奇数，如果是则增加一个空表。在本发明的另一种优选实施方式中，步骤A在分组时还包括以下步骤：在判断待连接表的总数n为奇数时，在待连接表中增加一个空表，则待连接表的组数当判断待连接表的总数n为偶数时，待连接表的组数随后，分时将各组表进行映射处理后输出，例如采用双阶段分割后得到各自的数据块并输出。具体步骤如下：

在t₁时刻，映射处理单元MAP读取待连接表T₁至T₄，对待连接表T₁至T₄进行自适应的双阶段分割后得到对应的数据块B₁至B₄，并将第一组表的数据块B₁和B₂输出至第一规约处理单元R1，将第二组表的数据块B₃和B₄输出至所述第二规约处理单元R2。

在t_i时刻，其中i＝2,3,…,j-1，j为待连接表的组数；映射处理单元MAP读取待连接表T_2i+1和T_2i+2，对所述待连接表T_2i+1和T_2i+2进行映射处理后得到第i+1组表的数据块B_2i+1至B_2i+2，并输出至第二规约处理单元R2。

B、第二规约处理单元R2按序读取第二组至末尾组表的数据块，并对每组表的两个数据块进行哈希连接得到每组表的两表连接结果。

该步骤B包括分时执行的以下步骤：

在t_i时刻，其中i＝2,3,…,j；第二规约处理单元R2读取第i组表的数据块B_2i-1至B_2i进行哈希连接后得到第i组表的两表连接结果H_i。

C、第一规约处理单元R1读取第一组表的两个数据块进行哈希连接后作为初始的多表连接结果，并在等待第二规约处理单元R2完成一组表的哈希连接后，将当前的多表连接结果与该组表的两表连接结果进行顺序连接以更新多表连接结果，直至所有组表完成连接后输出多表连接结果。

该步骤C包括分时执行的以下步骤：

在t₂时刻，第一规约处理单元R1读取第一组表的数据块B₁至B₂进行哈希连接后作为初始的多表连接结果S₁。

在t_i时刻，其中i＝3,4,…,j+1；第一规约处理单元R1在等待第二规约处理单元R2完成第i-1组表的哈希连接后，将当前的多表连接结果S_i-2与第i-1组表的两表连接结果H_i-1进行顺序连接得到更新的多表连接结果S_i-1。该顺序连接是指先读取待连接表中的所有key值，再选择key值相同的进行连接操作。

因此，本发明通过双阶段的方法对数据进行动态的划分，并且并行执行两条MapReduce任务流水线，采用调度器对流水线中的多个MapReduce任务进行有序、高效的调度，最终实现自适应的多表连接。本发明的任务流水线图如图2所示，包括以下步骤：

步骤一：在t₁时刻，映射处理单元MAP从HDFS上读取待连接表T₁、T₂、T₃、T₄，在t₁时间段内完成对这四个表的自适应的双阶段分割，得到对应的数据块B₁、B₂、B₃、B₄，并将第一组表的数据块B₁和B₂输出至所述第一规约处理单元R1，将第二组表的数据块B₃和B₄输出至所述第二规约处理单元R2。

步骤二：在t₂时刻，映射处理单元MAP完成对待连接表T₅、T₆的双阶段分割得到数据块B₅、B₆，同时第一规约处理单元R1完成对数据块B₁、B₂的哈希连接，得到第1组表的两表连接结果作为初级的多表连接结果S₁；第二规约处理单元R2完成对数据块B₃、B₄的哈希连接操作，得到第2组表的两表连接结果H₂。

步骤四：在t₃时刻，映射处理单元MAP完成对待连接表T₇、T₈的双阶段分割得到数据块B₇、B₈；同时第一规约处理单元R1将初级的多表连接结果S₁和两表连接结果H₂进行顺序连接后得到多表连接结果S₂；同时在第二规约处理单元R2上完成对B₅、B₆的哈希连接，得到第3组表的两表连接结果H₃。

步骤五：在t₄时刻，映射处理单元MAP完成对待连接表T₉、T₁₀的双阶段分割得到数据块B₉、B₁₀；同时第一规约处理单元R1完成S₂和H₃的顺序连接得到多表连接结果S₃；同时第二规约处理单元R2上完成对B₇、B₈的哈希连接，得到第4组表的两表连接结果H₄。

步骤六：以此类推，流水线一直运行下去，直到完成所有表的连接。

也就是说，为了控制集群中机器的任务分配，本发明引入一个调度器来控制流水线上各个操作执行的时间点，该调度器维护着一个记录集群中所有机器信息的调度表，该调度表记录着机器执行何种任务以及机器是否忙碌等信息。映射处理单元执行的是所有表的双阶段分割操作，当映射处理单元执行完一组表的分割操作后，调度器按顺序把下一组表发送给它继续执行。第一规约处理单元R1执行的是B1、B2数据块的哈希连接和所有表的顺序连接操作。当第一规约处理单元R1完成B1、B2的哈希连接后，它向调度器询问第二规约处理单元R2上B3、B4的哈希连接是否也已完成连接，若完成则第一规约处理单元R2接着执行S1和H2的顺序连接，否则进入等待状态，并持续向调度器发起询问，直到第二规约处理单元R2完成连接。第二规约处理单元R2执行的是除B1、B2外其他所有表的哈希连接。

本发明还相应提供了上述基于流水线的分布式多表连接系统。

其中映射处理单元MAP从分布式文件系统读取待连接表，将待连接表进行映射处理后得到对应的数据块，并以每两个待连接表为一组，将第一组表的数据块输出至第一规约处理单元R1，将第二组至末尾组表的数据块按序输出至第二规约处理单元R2。该映射处理单元MAP的实现原理及过程与前述方法中步骤A一致。

第二规约处理单元R2与映射处理单元MAP连接，用于按序读取第二组至末尾组表的数据块，并对每组表的两个数据块进行哈希连接得到每组表的两表连接结果。该第二规约处理单元R2的实现原理及过程与前述方法中步骤B一致。

第一规约处理单元R1与映射处理单元MAP连接，用于读取第一组表的两个数据块进行哈希连接后作为初始的多表连接结果，并在等待第二规约处理单元R2完成一组表的哈希连接后，将当前的多表连接结果与该组表的两表连接结果进行顺序连接以更新多表连接结果，直至所有组表完成连接后输出多表连接结果。该第一规约处理单元R1的实现原理及过程与前述方法中步骤C一致。

在本发明优选地实施方式中，该系统中还可以包括作业调度单元，用于存储调度表，并根据该调度表发送指令控制系统中其它单元的任务调度，实现调度器的功能。相应地，第二规约处理单元R2在对每组表的两个数据块进行哈希连接得到每组表的两表连接结果后返回完成信息给作业调度单元。第一规约处理单元R1在读取第一组表的两个数据块进行哈希连接后作为初始的多表连接结果后，向作业调度单元询问第二规约处理单元R2是否完成一组表的哈希连接，否则继续等待，是则将当前的多表连接结果与该组表的两表连接结果顺序连接以更新多表连接结果，直至所有组表完成连接后输出多表连接结果。

综上所述，本发明在规约机器群中进行的哈希连接不同于传统的依据key值进行的顺序连接，而是将待连接的数据库B_i、B_i+1中的B_i构建哈希表，再将哈希表与B_i+1进行连接，这将大大减少读取磁盘的次数。因此本发明采用流水线模型将自适应的双阶段分割方法应用于多表连接上，通过并行执行两条任务流水线，采用调度器对流水线中的多个MapReduce任务进行有序、高效的调度，避免了两两连接中产生过多中间结果，I/O开销过大的情况，可以快速高效地实现多个表的连接。并且与传统的依据key值或依据范围的分割算法相比，这种方法既保证了每一个数据树都有唯一的连接属性，又具有自适应的特点。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于流水线的分布式多表连接方法，其特征在于，该方法包括并行执行的以下步骤：

C、第一规约处理单元读取第一组表的两个数据块进行哈希连接后作为初始的多表连接结果，并在等待第二规约处理单元完成一组表的哈希连接后，将当前的多表连接结果与该组表的两表连接结果进行顺序连接以更新多表连接结果，直至所有组表完成连接后输出多表连接结果；

所述步骤A包括以下步骤：

在t_i时刻，其中i＝2,3,…,j-1，j为待连接表的组数；映射处理单元读取待连接表T_2i+1和T_2i+2，对所述待连接表T_2i+1和T_2i+2进行映射处理后得到第i+1组表的数据块B_2i+1至B_2i+2，并输出至第二规约处理单元；

且该步骤A的映射处理为自适应的双阶段分割；

所述步骤B包括以下步骤：

在t_i时刻，其中i＝2,3,…,j；第二规约处理单元读取第i组表的数据块B_2i-1至B_2i进行哈希连接后得到第i组表的两表连接结果H_i；

所述步骤C包括以下步骤：

2.根据权利要求1所述的基于流水线的分布式多表连接方法，其特征在于，所述步骤A中还包括：

在判断待连接表的总数n为奇数时，在待连接表中增加一个空表，且待连接表的组数

在判断待连接表的总数n为偶数时，待连接表的组数

3.根据权利要求1所述的基于流水线的分布式多表连接方法，其特征在于，所述自适应的双阶段分割包括：

在第一阶段依据连接属性对顶层数据进行分割；

在第二阶段依据数据规模和规约器的个数对底层数据进行分割。

4.一种基于流水线的分布式多表连接系统，其特征在于，包括：

第一规约处理单元，用于读取第一组表的两个数据块进行哈希连接后作为初始的多表连接结果，并在等待第二规约处理单元完成一组表的哈希连接后，将当前的多表连接结果与该组表的两表连接结果进行顺序连接以更新多表连接结果，直至所有组表完成连接后输出多表连接结果；

所述映射处理单元被配置为：

且所述映射处理为自适应的双阶段分割；

所述第二规约处理单元被配置为：

所述第一规约处理单元被配置为：

在t_i时刻，其中i＝3,4,…,j+1；第一规约处理单元在等待第二规约处理单元完成第i-1组表的哈希连接后，将当前的多表连接结果S_i-2与第i-1组表的两表连接结果H_i-1进行顺序连接得到更新的多表连接结果S_i-1；

所述系统还包括作业调度单元，用于存储调度表，并根据该调度表发送指令控制系统中其它单元的任务调度，实现调度器的功能；所述第二规约处理单元在对每组表的两个数据块进行哈希连接得到每组表的两表连接结果后返回完成信息给作业调度单元；第一规约处理单元在读取第一组表的两个数据块进行哈希连接后作为初始的多表连接结果后，向作业调度单元询问第二规约处理单元是否完成一组表的哈希连接，否则继续等待，是则将当前的多表连接结果与该组表的两表连接结果顺序连接以更新多表连接结果，直至所有组表完成连接后输出多表连接结果。

5.根据权利要求4所述的基于流水线的分布式多表连接系统，其特征在于，所述映射处理单元还在判断待连接表的总数n为奇数时，在待连接表中增加一个空表，则待连接表的组数在判断待连接表的总数n为偶数时，待连接表的组数