CN112256704A

CN112256704A - 一种快速join方法、存储介质及计算机

Info

Publication number: CN112256704A
Application number: CN202011148959.1A
Authority: CN
Inventors: 牛晓威; 张明瑞; 王培培; 王文盛
Original assignee: Shandong Chaoyue CNC Electronics Co Ltd
Current assignee: Shandong Chaoyue CNC Electronics Co Ltd
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2021-01-22

Abstract

本发明提出了一种快速join方法、存储介质及计算机，所述方法包括：按预设规则对小表中的待查询数据进行特征提取；以提取的所述特征作为寻址的一部分构造哈希空间，并将具有相同特征的小表存储在同一哈希空间中；按所述预设规则对大表中的待查询数据进行特征提取，以根据由大表获得的特征并行的访问对应的哈希空间；将具有相同的待查询数据的大表与小表进行数据合并。本发明一方面，将待查询数据的一部分用作构建小表的存储空间，使得在对小表寻址的过程中即完成了数据的初步对比，其可以大大缩小数据的对比范围；另一方面，本发明方法更适合于并发式处理，能够充分发挥处理模块的并行处理能力，从而实现快速join。

Description

一种快速join方法、存储介质及计算机

技术领域

本发明涉及数据库数据处理技术领域，尤其涉及一种快速join方法、存储介质及计算机。

背景技术

数据库核心操作的优化问题是当前研究的热点之一，而大表和小表的连接操作则是数据库查询过程中的核心问题。

join算法是目前执行上述连接操作的主流算法之一，join算法的目的是通过寻找与大表具有相同数据片段的小表，并将具有相同数据片段的对象中的数据进行合并(在分布式存储中，同一对象的数据可以分别通过大表与小表各存储一部分，为了方便后期的数据合并，大表与小表中存储有能唯一指代该对象的数据片段)。

现有的join算法大多采用的是单线程循环对比的方式，需要遍历位于存储空间中的全部小表，并分别计算大表与小表中对应查询属性的hash值，从而导致查询速度较慢。

发明内容

为解决背景技术中的技术问题，在本发明的一个方面，提出了一种快速join方法，所述方法包括：按预设规则对小表中的待查询数据进行特征提取；以提取的所述特征作为寻址的一部分构造哈希空间，并将具有相同特征的小表存储在同一哈希空间中；按所述预设规则对大表中的待查询数据进行特征提取，以根据由大表获得的特征并行的访问对应的哈希空间；将具有相同的待查询数据的大表与小表进行数据合并。

在一个或多个实施例中，所述以提取的所述特征作为寻址的一部分构造哈希空间，包括：在所述特征之前进行补位，补位二进制数1；或者在所述特征之后进行补位，补位二进制数0；其中补位个数由所述哈希空间的深度确定。

在一个或多个实施例中，所述将具有相同特征的小表存储在同一哈希空间中，包括：对于在所述特征之前进行补位二进制数1的情况，以补位后形成的地址为最大存储地址，将小表以地址逐次递减的方式进行存储。

在一个或多个实施例中，所述将具有相同特征的小表存储在同一哈希空间中进一步包括：对于在所述特征之后进行补位二进制数0的情况，以补位后形成的地址为最小存储地址，将小表以地址逐次递增的方式进行存储。

在一个或多个实施例中，所述按预设规则对小表中的待查询数据进行特征提取，包括：根据预设的特征长度控制参数，截取待查询数据中连续的重复单元最多的、且特征长度小于或等于所述特征长度控制参数的部分作为特征。

在一个或多个实施例中，所述重复单元包括：二进制数0或二进制数1。

在一个或多个实施例中，所述一种快速join方法还包括：将具有不同特征的小表存储在同一服务器的不同哈希空间中，或者存储在分布式系统的指定服务器的哈希空间中。

在一个或多个实施例中，所述将具有相同的待查询数据的大表与小表进行数据合并，包括：并行化的对大表与小表中的待查询数据进行对比；合并大表与小表中相同待查询数据所在项目中的数据；其中，所述待查询数据为所述项目中的部分数据。

在本发明的另一个方面，还提出了一种存储介质，所述存储介质中设置有可运行的计算机程序，所述计算机程序被执行时将执行如上所述的快速join方法。

在本发明的另一个方面，还提出了一种计算机，所述计算机包括：一个或多个处理器；以及存储器，所述存储器中存储有可运行的计算机程序，所述计算机程序被执行时将执行如上所述的快速join方法。

本发明的有益效果包括：本发明一方面，将待查询数据的一部分(特征)用作构建小表的存储空间，使得在对小表寻址的过程中即完成了数据的初步对比，其可以大大缩小数据的对比范围；另一方面，对于具有不同特征的待查询数据，其根据不同特征构建的哈希空间也将不同，这种分开的存储方式有利于实现并发操作，能够充分利用处理模块的并行处理能力，从而实现快速join。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本发明的一种快速join方法的工作流程图；

图2为本发明提供的执行所述一种快速join方法的计算机设备的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

本发明提出了一种全新的join算法，通过规定小表的存储规则以及寻址规则，使得对小表存储空间的访问及数据匹配过程能够同步实现，并可以最大化的利用FPGA的并行处理能力，从而达到快速join的目的。本发明方法的具体步骤如下：

图1为本发明的一种快速join方法的工作流程图。在本实施例中，快速join方法的工作流程包括：步骤S1、按预设规则对小表中的待查询数据进行特征提取；步骤S2、以提取的所述特征作为寻址的一部分构造哈希空间，并将具有相同特征的小表存储在同一哈希空间中；步骤S3、按所述预设规则对大表中的待查询数据进行特征提取，以根据由大表获得的特征访问对应的哈希空间；步骤S4、将具有相同的待查询数据的大表与小表进行数据合并，从而实现快速join。

具体的，待查询数据为能够唯一指代某一对象的数据片段或属性数据。其分别与该描述对象的其它部分数据保存在大表与小表中(大表保存该对象的一部分数据，小表保存该对象的另一部分数据)。在本实施例中，一方面，将待查询数据的一部分(特征)用作构建小表的存储空间，使得在对小表寻址的过程中即完成了数据的初步对比，其可以大大缩小数据的对比范围；另一方面，对于具有不同特征的待查询数据，其根据不同特征构建的哈希空间也将不同，这种分开的存储方式有利于实现并发式操作。在一个优选的施例中，上述方法的执行主体为FPGA模块；本发明方法能够充分利用FPGA模块的并行处理能力，从而实现快速join。

在进一步的实施例中，以提取的所述特征作为寻址的一部分构造哈希空间，包括：在所述特征之前进行补位，补位二进制数1；或者在所述特征之后进行补位，补位二进制数0；其中补位个数由所述哈希空间的深度确定。

具体的，在现有join算法中，哈希空间用于存放小表数据，小表通过对待查询数据计算得到对应的hash值，而后根据hash值计算对应的哈希空间；大表以相同的方式获得用于寻址哈希空间。而在本发明方法中，省略了计算hash值以获得哈希空间这一步，而直接采用截取待查询数据的一部分作为hash值方式，以直接构建哈希空间；其中，构建哈希空间的表达式为：

Assign waddr＝{smalldata[n+23:n],3’b0}；

其中，malldata[n+23:n]为截取的小表的特征，并具体截取了23位的数据，3’b0为补位部分，其与当前哈希空间的深度有关，在该实施例中，哈希空间的深度为8，即需要补位的个数为3，即该哈希空间由连续的8个存储地址组成；其中，n的选取与待查询数据的散列程度有关。

如上所述内容，本发明通过直接截取部分待查询数据作为hash值从而构建哈希空间的方式，即避免了计算hash值的过程，还实现了对多个小表的特征划分，以缩小后续待查询数据对比的范围以及实现可并行处理。

在进一步的实施例中，将具有相同特征的小表存储在同一哈希空间中，包括：对于在所述特征之前进行补位二进制数1的情况，以补位后形成的地址为最大存储地址，将小表以地址逐次递减的方式进行存储；对于在所述特征之后进行补位二进制数0的情况，以补位后形成的地址为最小存储地址，将小表以地址逐次递增的方式进行存储。

在进一步的实施例中，按预设规则对小表中的待查询数据进行特征提取，包括：根据预设的特征长度控制参数，截取待查询数据中连续的重复单元最多的、且特征长度小于或等于所述特征长度控制参数的部分作为特征。

具体的，设置特征长度控制参数的目的是控制在可寻址范围内构建哈希空间。其中，重复单元包括：二进制数0或二进制数1。更具体的，重复单元的个数并不限制，其可以为一个也可以为多个，其中，重复单元为1和情况包括二进制数0或二进制数1，即截取的特征可以如：0000000或者1111111；重复单元为多个的情况如，重复单元为010，截取的特征为010010010010。

在进一步的实施例中，本发明的一种快速join方法还包括：将具有不同特征的小表存储在同一服务器的不同哈希空间中；或者存储在分布式系统的指定服务器的哈希空间中。

在进一步的实施例中，将具有相同的待查询数据的大表与小表进行数据合并，包括：并行化的对大表与小表中的待查询数据进行对比；合并大表与小表中相同待查询数据所在项目中的数据；其中，所述待查询数据为所述项目中的部分数据。

具体的，在利用大表寻址小表的过程中，首先以提取小表中待查询数据相同的预设规则对大表中的待查询数据进行特征提取，其可以获得与小表相同的特征，而后再采用上述构建哈希空间的表达式进行寻址即可以在对应的哈希空间中实现对待查询数据完整的匹配，其中，匹配方案包括：

方案一、设hash空间深度为N,则并行化N个进程，分别对对应地址空间为raddr，raddr+1，…,raddr+N-1的数据进行读取匹配。

方案二、并行化n个进程(保证数据处理速度大于数据的传入速度)，n个进程同时进行数据的匹配，对每一个hash空间的读取突发长度设为N(哈希空间深度)，对存储在hash空间的N个数据依次进行匹配。

在上述各实施例的基础上，本发明还提出一种存储介质，所述存储介质中设置有可运行的计算机程序，所述计算机程序被执行时将执行如前所述的快速join方法。

在上述各实施例的基础上，本发明还提出一种计算机，所述计算机的结构或功能如下：

图2为本发明提供的执行所述一种快速join方法的计算机设备的示意图。以如图2所示的计算机设备为例，在该计算机设备中包括一个处理器201以及一个存储器202，并还可以包括：输入装置203和输出装置204。

处理器201、存储器202、输入装置203和输出装置204可以通过总线或者其他方式连接，图2中以通过总线连接为例。

存储器202作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的所述一种快速join方法对应的程序指令/模块。处理器201通过运行存储在存储器202中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，以实现上述方法实施例的快速join方法。

输入装置203可接收输入的数字或字符信息，以及产生与快速join方法的用户设置以及功能控制有关的键信号输入。输出装置204可包括显示屏等显示设备。

所述一个或者多个快速join方法对应的程序指令/模块存储在所述存储器202中，当所述程序指令被所述处理器201执行时，执行上述任意方法实施例中的快速join方法。以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。

上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种快速join方法，其特征在于，所述方法包括：

按预设规则对小表中的待查询数据进行特征提取；

以提取的所述特征作为寻址的一部分构造哈希空间，并将具有相同特征的小表存储在同一哈希空间中；

按所述预设规则对大表中的待查询数据进行特征提取，以根据由大表获得的特征并行的访问对应的哈希空间；

将具有相同的待查询数据的大表与小表进行数据合并。

2.如权利要求1所述的快速join方法，其特征在于，所述以提取的所述特征作为寻址的一部分构造哈希空间，包括：

在所述特征之前进行补位，补位二进制数1；或者

在所述特征之后进行补位，补位二进制数0；

其中，补位个数由所述哈希空间的深度确定。

3.如权利要求2所述的快速join方法，其特征在于，所述将具有相同特征的小表存储在同一哈希空间中，包括：

对于在所述特征之前进行补位二进制数1的情况，以补位后形成的地址为最大存储地址，将小表以地址逐次递减的方式进行存储。

4.如权利要求2所述的快速join方法，其特征在于，所述将具有相同特征的小表存储在同一哈希空间中，进一步包括：

对于在所述特征之后进行补位二进制数0的情况，以补位后形成的地址为最小存储地址，将小表以地址逐次递增的方式进行存储。

5.如权利要求1所述的快速join方法，其特征在于，所述按预设规则对小表中的待查询数据进行特征提取，包括：

根据预设的特征长度控制参数，截取待查询数据中连续的重复单元最多的、且特征长度小于或等于所述特征长度控制参数的部分作为特征。

6.如权利要求5所述的快速join方法，其特征在于，所述重复单元包括：二进制数0或二进制数1。

7.如权利要求1所述的快速join方法，其特征在于，所述方法还包括：

将具有不同特征的小表存储在同一服务器的不同哈希空间中或者存储在分布式系统的指定服务器的哈希空间中。

8.如权利要求1所述的快速join方法，其特征在于，所述将具有相同的待查询数据的大表与小表进行数据合并，包括：

并行化的对大表与小表中的待查询数据进行对比；

合并大表与小表中相同待查询数据所在项目中的数据；

其中，所述待查询数据为所述项目中的部分数据。

9.一种存储介质，其特征在于，所述存储介质中设置有可运行的计算机程序，所述计算机程序被执行时将执行上述权利要求1-8中任意一项所述的快速join方法。

10.一种计算机，所述计算机包括：

一个或多个处理器；以及

存储器，其特征在于，所述存储器中存储有可运行的计算机程序，所述计算机程序被执行时将执行上述权利要求1-8中任意一项所述的快速join方法。